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(57) Abstract: The invention relates to a method of encoding a source image sequence. The inventive method comprises: mo- 
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(57) Abrege : L* invention conceme un proc6d6 de codage d'une sequence d'images source, mettant en oeuvre une decomposition 
mouvement/textuie, produisant, pour au moins certaines desdites images source, des informations representatives du mouvement, 
dites images de mouvement, et des informations representatives de la texture, dites images de texture, et un codage par ondelettes, 
ledit codage par ondelettes etant applique sur des images de difference, dites residus, obtenues par comparaison entre une image de 
mouvement, respectivement de texture, et une image estimee correspondante. 
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Proced^s et dispositifs de codage et de decodage d'une sequence 
d*images par decomposition mouvement/teidiure et codage par ondelettes. 
1. Domaine de rinvention 

Le domaine de rinvention est celui du codage, et du ddcodage d'une 
5 sequence damages vid6o, par exemple en vue de son stockage ou de sa 
transmission vers au moins un terminal. 

Le codage vid6o est utilise dans de nombreuses applications, qui 
n£cessitent des ressources et des bandes passantes varices et variables. Pour 
r6pondre k ces diff6rents besoins, il est int^ressant de disposer d'un flux vid6o 
10 poss6dant des proprietds de scalability, c'est-^-dire pouvant s'adapter aux 
ressources et debits disponibles. 

L'invention s'inscrit notamment dans ce cadre. 

La scalability peut s'obtenir notamment par Tutilisation de transform6es 
ondelettes dans un schema de codage vid6o. On constate en effet que ces deux 
15 aspects, ondelettes et scalabilit6, permettent chacun de reprdsenter un signal de 
mani&re hiSrarchique. 

3,Etat depart 

2.1 Codage vidio u tilisant les ondelettes 3D 

Plusieurs sch6mas de codage vid^o utilisant des ondelettes ont d6j& 6i€ 
20 pr6sent6s dans la litterature. On a notamment propos6 d'utiliser des transformfies 
par ondelettes 3D (en trois dimensions), par exemple dans les documents 
suivants : 

S.J. Choi and J.W. Woods. Motion - Compensated 3-d subband coding 
of video. IEEE Transactions on Image Processing, 8(2) : 15-167, 
25 February 1999 ; 

- J.R Ohm. Three dimensional subband coding with motion 
compensation. IEEE Transactions on Image Processing, 3(5) : 559- 
571, September 1994 ; 

- Seeker A. and D. Taubman. Motion - compensated Highly scalable 
30 video compression using 3d wavelet transform based on lifting. IEEE 
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2001. 

- D. Taubman and A. Zakhor. Multirate 3d subband coding of video. 
IEEE transactions on Image processing, 3(5) 572-588, September 
1994. 

5 Un des premiers sch6mas, propose par Taubman et Zakhor en 1994, 

effectue une transform6e ondelette 3D sur une sequence d'images redress6es par 
rapport k la premifere image de la s6quence. Selon cette technique, le mouvement 
consid6r6 n'est quW mouvement global dans la scfene, n'offrant qu'une qualit6 
insuffisante. L'utilisation de mouvements plus complexes, qui presenteraient des 
10 zones de contraction et d'expansion, necessiterait de redresser les images sur des 
grilles d'echantillonnage non uniformes, et le sch6ma ne serait alors plus 
reversible. 

D'autres schemas, developpes notamment par Ohm en 1994 et Choi et . 
Woods en 1999, utilisent des blocs pour la representation du mouvement. La 
15 transformee ondelette 3D est alors effectu6e sur ces blocs, le long de la trajectoire 
du mouvement. 

Cependant, le mouvement par blocs n'est pas continu et fait apparaitie des 
pixels isol6s ou doublement connect6s k d'autres pixels. II en r6sulte des sous- 
bandes temporelles contenant beaucoup de hautes frequences. De plus, ces pixels 

20 particuliers linutent la longueur du filtre d'ondelette. 

Une autre approche, notamment presentee par Taubman et Seeker en 2001, 
utilise les ondelettes 3D en appliquant la forme "lifting" de la transformee 
temporelle. Selon cette methode, la transformee temporelle est effectuee en meme 
temps que la compensation en mouvement. L'utilisation du liftmg permet d'obtenir 

25 une transformee reversible. Cependant, elle necessite d'avoir connaissance des 
champs de mouvements directs et inverses. Or, ces champs de mouvement sont 
coilteux k coder. 

Uutilisation de champs de mouvements par blocs implique Tutilisation de 
filtres courts tels que le 5/3 tronque. Ce codage de mouvement par blocs, 
30 discontinu, introduit en consequence des hautes frequences difficiles k coder dans 
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les sous-bandes. 

2.2 Inconvenients de ces techniques arttdrieures 

Ces diffi6rentes approches connues tentent done d'utiliser des ondelettes le 
long de I'axe temporel. Cependant, la plupart de ces Etudes utilisent un 
5 mouvement par blocs, qui genere des discontmuit6s lors des compensations en 
mouvement. A cause de ces discontinuites, les ondelettes temporelles ne 
dScorrMent pas le signal au mieux. Plus pr6cis6ment, les discontinuit6s cr6ent des 
hautes frequences dans les sous-bandes, qui sont difficiles ^ coder ensuite par une 
ondelette 2D. 

10 2.3 Approche Ajialyse-svnthise prenant en compte le maillage 

Les inventeurs ont pr6sent6, dans un article intitul6 "codage video scalable 
par maillage et ondelettes 3D" (Nathalie Camas et Stephane Pateux, Conference 
Coresa'03 - Compression et Representation des Signaux Audiovisuels — Lyon, 
16-17 Janvier 2003) une amelioration de ces techniques, reposant notanmient sur 
15 une approche de type analyse-synthdse et une representation pr6cise du 
mouvement, base sur des maillages. 

En utilisant une telle estimation de mouvement par le maillage, on obtient 
un bon suivi des deformations de la texture le long de Taxe temporel. La 
compensation en mouvement par maillages assure en effet une continuite 
20 temporelle de la texture, qui n'existe pas avec les autres m^thodes de 
compensation, conrnie, par exemple, la m^thode par blocs. Cette continuity peut 
alors etre exploit^e par Tutilisation d'ondelettes, le long de I'axe temporel. 

La pr6sente invention conceme plus precisement cette demifere technique 
de codage, qu'elle vise k am61iorer, notamment en r^duisant la quantite de donn^es 
25 k transmettre, ou k stocker, pour repr6senter une sequence d*images vid6o. 
3. OM^ctifs Vlnyeyition 

L'invention a notamment pour objectif de pallier les diff^rents 
inconvenients des techniques anterieures. 

Notamment, un objectif de Tinvention est de foumir une technique de 
30 codage, permettant de transmettre (ou stocker) plus d'informations pour un debit 
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donn6, ou de n^cessiter un d6bit moindre pour une quantite d*informations 
donn6e, par rapport aux techniques mentionnees ci-dessus. 

Un autre objectif de Tinvention est de proposer un codage vid6o 
^chelonnable, ou scalable, permettant une reconstruction progressive de chaque 
5 image ou sequence d*image. 

Un autre objectif de Tinvention est de foumir une telle technique de 
codage, prdsentant de bonnes qualit6s de robustesse. 

Ainsi, un objectif particulier de I'invention est de foumir un taux de 
compression inf6rieur ou similaire k celui du codage H264, en offrant en plus la 
10 scalability et la robustesse. 

4. Caracteristiques principales de rinvention 
Ces objectifs, ainsi que d'autres qui apparaitront par la suite, sont attaints h Taide 
d'un proc^de de de codage d'une sequence d'images source, mettant en oeuvre une 
decomposition mouvement/texture, produisant, pour au moins certaines desdites 
15 images source, des informations representatives du mouvement, dites images de 
mouvement, et des informations representatives de la texture, dites images de 
texture, et un codage par ondelettes, 
caracteris6 en ce qu'il comprend les 6tapes suivantes : 

- estimation du mouvement, par exemple h, Taide d'au moins une grille 
20 de reference, de f aQon k obtenir lesdites images de mouvement ; 

- projection de chacune desdites images source sur au moins une grille 
de reference, de fa9on k obtenir lesdites images de texture, sur 
lesquelles Teffet du mouvement a 6t6 annule ; 

- comparaison entre une image de mouvement et une image estim^e 
25 correspondante, de fa9on k obtenir une image de difference de 

mouvement, dite r&idu de mouvement ; 

- comparaison entre une image de texture et une image estim^e 
correspondante, de fagon k obtenir une image de difference de texture ; 

- codage independant, par ondelettes, desdits residus de mouvement et 
30 desdits residus de texture. 
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Ainsi, on r6duit fortement le nombre d'informations k coder, et on obtient 
done une augmentation du debit utile ou, k d6bit constant, une am61ioration des 
images cod6es et/ou stockees. 

L'approche de T invention peraiet de traiter ind6pendamment les signaux 
5 de mouvement et de texture, puisque Teffet du mouvement a 6t6 supprim6 dans 
les informations de texture, Ces signaux permettent notamment de coder ensuite 
ind6pendanunent les deux types d'information. 

De fagon avantageuse, ladite comparaison met en oeuvre une difference 
avec une image interpol6e k partir d'au moins la premiere et/ou de la demifere 
10 image de ladite sequence. 

Avantageusement, on effectue un codage temporel de ladite texture, 
redress^e par ledit mouvement prealablement cod6 selon Taxe temporel, h Taide 
d'un codage par ondelettes, 

De faqon pr6f6rentielle, le procede de Tinvention comprend un codage de 
15 la texture comprenant un codage temporel par ondelettes suivi d'un codage spatial 
par ondelettes. 

Selon un aspect avantageux de Tinvention, on met en oeuvre un codage du 
mouvement prenant en compte un maillage, et pr6f6rentiellement un maillage 
hi6rarchique. 

20 Avantageusement, le codage du mouvement comprend 6galement un 

codage temporel par ondelettes suivi d'un codage spatial par ondelettes. 

Selon un aspect pr^ferentiel de 1' invention, lesdites images source sont 
regroup6es par blocs d'images comprenant un nombre variable (N) damages 
source. 

25 Ce nombre pent notamment varier en fonction des caract6ristiques des 

images* n peut par exemple 8tre de I'ordre de 8 images. 

Avantageusement, deux blocs d' images successifs comprennent au moins 
une image conunune. En d'autres termes, les blocs se chevauchent. 

Dans ce cas, on prdvoit avantageusement que la premifere image d'un bloc 
30 d'images n'est pas codde, celle-ci 6tant identique k la demi^re image du bloc 
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d'images prec6dent. 

Cela permet encore d'augmenter le d6bit utile. 

Selon un premier mode de mise en oeuvre, dans chacun desdits blocs 
d'images, on estime le mouvement de toutes les images d'un bloc d'images h 
5 partir de la premiere image dudit bloc. 

On pent notanmient mettre en ceuvre une ^tape de compensation de 
mouvement par rapport k au moins une grille de r6ference. 

Avantageusement, ladite 6tape de compensation utilise deux grilles de 
r6f6rence repr6sentant respectivement la premifere et la demi&re images du bloc 
10 consid^r^. 

Ainsi, selon un deuxifeme mode de mise en oeuvre, pour un bloc de N 
images, les images de 1 ^ (N+l)/2 sont plaquees sur la grille de reference 
representant la premiere image et les images de (N+l)/2 +1 a N sont plaqu6es sur 
la grille de r6ference repr6sentant la demiere image. 
15 Selon un autre aspect pr6ferentiel de T invention, le procdd6 de codage 

comprend un codage du mouvement mettant en oeuvre une estimation de 
mouvement multi-resolution, selon laquelle le mouvement est estim6 sur au moins 
deux niveaux de resolution d'image. 

Ainsi, I'estimation de mouvement pent avantageusement 6tre effectude sur 
20 au moins deux niveaux dudit maillage hidrarchique. 

Bien sflr, Tinvention pent 6galement 8tre mise en oeuvre pour un seul 
niveau de resolution de maillage, par exemple pour un maillage a un niveau 
irrdgulier adapts au contenu. 

De fa9on avantageuse, on prevoit une etape de projection d'une image sur 
25 au moins une grille de reference, correspondant k une grille d'echantillonnage 
definie par la position des noeuds d*un maillage dans une image, de fa^on k 
obtenir un masque de texture. 

Preferentiellement, on met en oeuvre une approche multi-grille, selon 
laquelle on associe respectivement une grille de reference spdcifique k au moins 
30 deux niveaux de hi6rarchie d'un maillage hierarchique. 
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Dans ce cas, on met avantageusement en oeuvre une pond^ration des 
noeuds de maillage entre lesdits niveaux de hi6rarchie, par des poids repr6sentatif 
de la deformation geom^trique. 

De fagon pr6f6rentielle, ladite ponderation est modifi6e lors de la 
5 repercussion du deplacement d'un niveau k Tautre (de fagon h conserver la 
structure des maillages inf6rieurs). 

Avantageusement, entre deux niveaux hi^rarchiques successifs, 
correspondant k un maillage grossier et k un maillage fin, les noeuds dudit 
maillage fin sont repr6sent6s par leur coordonn^es barycentriques par rapport au 
10 triangle du maillage grossier auquel ils appartiennent, ledit maillage fin 
comprenant d'une part des premiers noeuds, dits noeuds fils directs, dependant des 
noeuds dudit maillage grossier et des seconds noeuds, correspondant a un milieu 
d' arete dudit maillage grossier. 

Lesdits noeuds fils directs peuvent alors prennent la valeur de noeuds p&res 
15 correspondant dudit maillage grossier, et lesdits seconds noeuds peuvent 
correspondre k une combinaison lin^aire entre les quatre noeuds des deux triangles 
auxquels appartient ladite arSte. 

Ainsi, avantageusement, si ledit noeud est sur ladite argte, alors seuls les 
deux noeuds d'extr6mit6 de ladite ar8te sont pris en compte, et en ce que si ledit 
20 noeud n'est pas sur ladite arSte, seuls les trois noeuds appartenant au triangle dudit 
maillage grossier auquel appartient ledit noeud dudit maillage fin. 

Selon un autre aspect avantageux, ladite multi-grille peut etre adapt6e k un 
maillage en mouvement, k partir d'une initialisation reposant sur une approche 
gdom^trique. 

25 Dans ce cas, le proc^e comprend avantageusement une €tape de detection 

d'au moins une zone de support d'image restant indefinie apres ladite projection 
d'une image, du fait de Tutilisation d'une grille de r6f6rence correspondant k une 
autre image, et une 6tape de remplissage (« padding ») de la ou desdites zones de 
support d'image ind6finies, 

30 Ladite £tape de remplissage peut notamment reposer sur une approche de 
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type analyse-synthese, 1' image k compl6ter 6tant analys6e, puis synthetisee, pour 
obtenir par comparaison un r6sidu. 

Preferentiellement, ladite analyse-synthese est reit6ree au moins une fois, 
sur le r6sidu obtenu k Tit^ration pr6c6dente. 
5 Le « padding » comprend de fagon avantageuse une 6tape de remplissage 

spatial pour au moins une image suivie d'une 6tape de remplissage temporel, par 
prediction. 

Ladite 6tape de remplissage pent notamment Stre assur^e par une 
interpolation. 

10 De fa^on pref6rentielle, on applique une antisym6trie aux coefficients 

d'ondelettes correspondant k un bord d*une image, de fagon k simuler un signal k 
support de longueur infinie. 

Selon un autre aspect avantageux de I'invention, les donndes codees sont 
r^parties en au moins deux couches, xme couche basse comprenant des donnees 
15 permettant de reconstruire une image de quality grossi^re et une couche haute 
permettant d'affiner la quality de ladite image grossifere. 

Ladite couche basse pent ainsi comprendre un flux de mouvement de bas 
niveau, comprenant des donnees de mouvement de la demi&re image dudit bloc 
d'images, et un flux de texture de bas niveau, comprenant des donn€es de texture 
20 de la premi&re et de la demi^re images dudit bloc d'images. 

Ladite couche haute comprend quant k elle avantageusement un flux de 
mouvement de haut niveau et un flux de texture de haut niveau, correspondant au 
codage desdits r6sidus. 

Selon un mode de mise en oeuvre particulier de Tinvention, le proced6 de 
25 codage comprend done les Stapes suivantes : 

- s61ection d'un groupe d'images source ; 

- analyse du mouvement dans ledit groupe d'images source, produisant 
lesdites images de mouvement ; 

- analyse de la texture des images source dudit groupe, ladite texture 6tant 
30 plaqu^e sur les images de mouvement correspondantes, produisant lesdites 
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images de texture ; 

- pr6diction d'au moins certaines des images de texture dudit groupe 
d'images source, produisant lesdites images de texture pr6dite ; 

- determination de r^sidus de texture, correspondant k la difference entre 
5 une image de texture et une image de texture pr6dite ; 

- prediction d'au moins certaines des images de mouvement dudit groupe 
d' images mouvement, produisant lesdites images de mouvement pr^dite ; 

- determination de r^sidus de mouvement, correspondant k la difference 
entre une image de mouvement et une image de mouvement predite ; 

10 - application d*un codage par ondelettes sur lesdits residus de texture et sur 

lesdits residus de mouvement. 

L' invention concerne egalement les signaux generes par un procede de 
codage tel que decrit ci-dessus. 

Un tel signal representatif d'une sequence d'images source et obtenu par 
IS un mettant en oeuvre une decomposition mouvement/texture, produisant, pour au 
moins certaines desdites images source, des informations representatives du 
mouvement, dites images de mouvement, et des informations representatives de la 
texture, dites images de texture, et un codage par ondelettes. II comprend des 
donnees numeriques representatives d'un codage par ondelettes applique sur des 
20 images de difference, dites residus, obtenues par comparaison entre une image de 
source et une image estimee correspondante. 

De fagon preferentielle, il est constitue d'au moins deux couches, une 
couche basse comprenant des donnees permettant de reconstruire une image de 
qualite grossi^re et une couche haute permettant d'affiner la qualite de ladite 
25 image grossi&re. 

Avantageusement, ladite couche basse comprend successivement un flux 
de base, comprenant des donnees d'initialisation, un premier flux representatif du 
mouvement et un prender flux representatif de la texture, et ladite couche haute 
comprend successivement un second flux representatif du mouvement et un 
30 second flux representatif de la texture, lesdits seconds flux correspondant au 
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codage desdits residus. 

Selon un autre aspect, le signal comprend trois champs pour decrire un 
objet, representatifs respectivement de son mouvement, de sa texture et de sa 
forme. 

5 L'invention conceme encore les proc€d6s de d^codage d'un tel signal, 

et/ou correspondant au proc6d6 de codage. 

Un tel proc^de de decodage comprend avantageusement les 6tapes 
suivantes : 

- decodage du mouvement, en tenant compte d'au moins certains 
10 desdits r6sidus relatifs au mouvement, pour former des images de 

mouvement ; 

- d6codage de la texture, en tenant compte d'au moins certains 
desdits residus relatifs k la texture, pour former des images de 
texture ; 

15 - synth^e d'une sequence d'images decodees, correspondant k ladite 

sequence d'images source, par projection desdites images de 
texture sur lesdites images de mouvement 
Preferentiellement, il comprend une 6tape de mesure de la quality de ladite 
sequence d'images d6cod6es, par analyse de la distorsion entre les images de 
20 texture originates et les images de texture d6cod6es. 

De fagon avantageuse, ladite etape de decodage du mouvement comprend 
les etapes suivantes : 

- generation d'un maillage hierarchique sur la premiere image ; 

- decodage d'informations de mouvement associ6es h la demiere 
25 image, pour determiner un maillage associe k ladite demiere 

image ; 

- interpolation des images de mouvement interm6diaires. 
Preferentiellement, il comprend ensuite une etape de decodage desdits 

residus, comprenant une transformation par ondelettes inverse de celle appliquee 
30 au codage, et une etape d'addition desdits residus auxdites images de mouvement 
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intermediaires interpolees. 

De la meme fagon, ladite 6tape de decodage de la texture comprend 
avantageusement les etapes suivantes : 

- generation d'une texture pour la premifere image ; 

5 - decodage d' informations de texture associ6es k la demi&re image, 

pour determiner une texture associee k ladite demiere image ; 

- interpolation des images de texture intermediaires. 

Selon un aspect particulier, au moins certains desdits blocs d'images, dits 
blocs « inter », retape de g6n6ration d'une texture pour la premiere image prend 
10 en compte la demifere image du bloc damages precedents. 

Avantageusement, le procede de decodage comprend ensuite une etape de 
decodage desdits residus, comprenant une transformation par ondelettes inverse 
de celle appliquee au codage, et une etape d' addition desdits residus auxdites 
images de texture intermediaires interpolees. 
15 n peut en outre comprendre avantageusement une etape de gestion des 

retoumements generes par ladite estimation du mouvement. 

Preferentiellement, il comprend une etape d'arrSt du traitement desdits 
residus, lorsqu'un niveau de qualite et/ou une quantite de traitements a effectuer 
est atteint. 

20 L'invention conceme encore les dispositifs de codage et/ou de decodage 

mettant en oeuvre les procedes decrits ci-dessus, les serveurs de donnees, stockant 
et pouvant transmettre vers au moins un terminal des signaux selon Tinvention, 
les supports de donnees numerique pouvant etre lu par un terminal et portant de 
tels signaux, ainsi que les progranunes d'ordinateur comprenant des instructions 

25 pour mettre en ceuvre un codage et/ou un decodage selon I'invention. 
5, Liste des figures 

D*autres caracteristiques et avantages de Tinvention apparattront plus 
clairement k la lecture de la description suivante d'un mode de realisation 
preferentiel, donne k titre de simple exemple illustratif et non limitatif, et des 
30 dessins annexes parmi lesquels : 
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la figure 1 est un organigramme simplifie illustrant le principe g^n^ral 
du codage selon Tinvention ; 

la figure 2 presente un organigramme plus d^taill6 du schema de 
codage de la figure 1 ; 
5 - la figure 3 est xm exemple de maillage hi6rarchique ; 

- la figure 4 illustre le principe de Testimation multi-resolutions et 
hi^rarchique selon Tinvention ; 

- la figure 5 montre la progression dans les niveaux de hidrarchie et de 
resolution ; 

10 - la figure 6 est un organigramme pr^sentant le principe du "padding" 

par ondelettes ; 

la figure 7A A 7F illustrent le principe de la projection d*une image k 
sur une image i ; 

- la figure 8 represente le principe de Tinterpolation bi-lineaire ; 
15 - la figure 9 illustre la projection sur des grilles de reference ; 

- la figure 10 illustre le padding 2D par calculs de basses-frdquences ; 

- la figure 1 1 pr6sente un exemple de signal r^sidu de texture (ou de 
mouvement) ; 

- la figure 12 est im algorithme pr6sentant le codage de la texture ; 
20 - la figure 13 est un algorithme pr6sentant le codage du mouvement ; 

- la figure 14 illustre Tapplication de vecteurs non coh^rents k un 
maillage ; 

la figure 15 donne un exemple de fusion de sommets ; 

- la figure 16 illustre un exemple de maillage "n-manifold" ; 

25 - la figure 17 illustre un exemple de maillage k support correct ; 

- la figure 18 pr6sente I'operateur de prolongement utilise selon 
rinvention ; 

- les figures 19A et 19B pr^sentent respectivement une grille grossi^re et 
une grille fine pouvant Stre utilisees dans une version simplifi6e de 

30 rinvention ; 
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- la figure 20 illustre le principe du multigrille g6om6trique ; 

- la figure 21 presente une etape de lifting selon rinvention ; 

la figure 22 illustre le principe de Tanalyse-synthese d'un signal selon 
rinvention ; 

5 - la figure 23 presente un autre sch€ma d'analyse-synthese, avec matrices 

polyphases ; 

- les figures 24 k 27, comment^s en annexe 4, concement certains 
aspects de Testimation multigrille ; 

- la figure 28 pr6sente un synoptique du principe de suivi d'un maillage 
10 au cours du temps ; 

- la figure 29 illustre la construction d'une mosajfque vid6o au cours du 
temps ; 

- la figure 30 presente le schema de codage par analyse-synth&se ; 

- la figure 3 1 illustre la structure du flux vid^o g^nere selon rinvention. 
IS 6, Modes de reaMsation preferentiels 

6,1 Principe gineral de Vinvention 

La technique de codage selon rinvention, assure un codage de sequence 
vid6o par maillages et ondelettes 3D. 

Cette sequence est d'abord d6coup6e en groupe de N images, appel6 par la 
20 suite GOP ("group of pictures" en anglais, pour « groupe d'images »). Le nombre 
d'images par GOP pent varier, notamment selon Tintensitfi du mouvement dans la 
sequence. En moyenne, dans I'exemple d6crit ci-apres, la taille d*un GOP est de 
huit images. 

Le codage repose sur une approche de type analyse-synthese. Une 
25 premiere phase est I'estimation du mouvement par GOP, h. Taide de maillages 
d€formables. La deuxieme phase est le codage du mouvement et de la texture du 
GOP. 

Le mouvement est estim6 dans les images 1 et t du GOP, ou t est une 
image du GOP et 1 la premifere image du GOP. L'utilisation des ondelettes 3D et 
30 la nature d'analyse-synth&se du schema de codage permettent d'offirir une 
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scalabilit6 naturelle. 

L'approche bas6e sur les maillages permet d'eviter les effets de blocs 
habituels aux techniques anterieures, grace a rutilisation de champs de 
mouvement continus, et ainsi d'ameliorer la prediction temporelle. 
5 Le codage de Tinvention office done un flux scalable et progressif. Selon 

l'approche analyse-synth^se, Tanalyse consiste k traiter un groupe dlmages 
appartenant k une fenStre temporelle, dans lequel le mouvement est estim6. Le 
modMe de compensation obtenu permet de compenser les images de la premiere 
image de la fenStre vers la demi^re image. Les images peuvent ensuite 8tre 
10 plaquees sur des grilles de r6f6rence, afin des s6parer les informations de 
mouvement et de texture. 

Ces informations peuvent ensuite 6tre codecs separement en deux 
couches : 

une couche de base qui permet de repr^senter le signal vid6o 
15 6chantillonne, et qui contient les informations des images extr&mes de 

fenStre temporelle ; 
- les images internes h la fenStre pouvant alors 6tre interpol6e entre ces 
deux images extremes ; 

au moins une couche subsequente de r6haussement pouvant §tre 
20 rajout6e k la couche de base afin d'amdliorer la qualite de la sequence 

viddo reconstruite. Les couches de r^haussement apportent un 
raffinement de texture et/ou de mouvement aux images internes 
extremes de la fendtre. 

La sequence vid6o est reconstruite par une phase de synthese, qui 
25 reprojette les images de texture sur leur grille d'6chantillonnage original. La 
separation de mouvement et de la texture dans la strategic de codage permet de 
coder le mouvement avec pertes, le gain en ddbit pouvant alors 8tre r6percute sur 
le codage de la texture. Lutilisation des ondelettes dans le codage de la couche 
haute permet par ailleurs d'offrir un flux scalable. 
30 6.2 Schema gindral du codage (figure 1 ) 
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• Figure 1 

La figure 1 donne une vue g6n6rale du principe d'un precede de codage, et 
d'un codeur selon rinvention. 

Ainsi que pr6cis6 pr6cddenuiient, chaque groupe d*images 1 1 subit tout 
5 d*abord une etape d'estimation de mouvements 12, bas6e sur un module de 
compensation 1 vers t, puis une 6tape 13 de codage du mouvement livrant d'une 
part, un flux "bitstream" de bas niveau 131 et un flux "bitstream" 132 de haut 
niveau ou de r^haussement. 

Selon le principe d'analyse-synthfese, les donn6es representatives du 
10 mouvement sont red6cod6es lors du codage, dans une 6tape 14 de d6codage du 
mouvement. L'^tape 15 de plaquage de la texture sur des grilles de reference 
delivre les informations relatives a cette texture, qui sont ensuite codecs (16), dans 
deux flux 161 et 162, correspondant respectivement h un flux "bitstream" de 
texture de bas niveau et un flux "bitstream" de texture de haut niveau. 
15 Les diff6rents flux 131, 132, 161, 162 qui sont ensuite organises pour 

former un train binaire d61ivre un flux destin6 k gtre transmis et/ou stocks. 

La figure 2 est une version plus d6taill6e du schema de la figure 1, dans 
laquelle les Stapes de compensation 12 et de codage 16 la texture sont plus 
d^taill^es. EUe est comment^e plus en detail par la suite. 
20 • Principe du codage 

Le sch6ma de codage propose est schema de type analyse-synthese. 
Chaque image est rendue par Tintermediaire d'une texture plaquee k Taide du 
maillage (de fagon similaire a ce qui peut se faire en synthase d'images). 
L'information de texture ainsi que information d'6volution du maillage sont 
25 obtenues par Tintermediaire de Talgorithme d'estimation de mouvement defini 
prdc^demment ainsi que la technique de construction d'images mosaiques, comme 
illustr6 sur la figure 30. 

Chaque image est restitute par rinterm6diaire d'une texture dynamique 
(i.e. la mosaique dynamique cr^e pr6c6dement) plaqu6e k I'aide du maillage 
30 d^formable. La texture dynamique est cod6e par Tintermfidiaire d'une 
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representation ondelette 3D. L' information de deformation du maillage est 
6galement code par une ondelette 3D. Un niveau de raffinement pent egalement 
etre ajouter afin de venir raffiner s6parement chaque image. 

Ce schema de codage offre de nombreux int^rSts. Tout d'abord, il exploite 
5 au maximum les corr61ations spatio-temporelles presentes au sein de la vid€o 
(notamment au niveau des correlations temporelles). 

Par ailleurs, il offre la possibilite de decoupler T information de 
mouvement de Tinformation de texture au niveau du d6codeur, Ainsi un codage 
avec pertes des informations de deformations du maillage peut 8tre r6alis6 sans 
10 pour autant apporter de degradation visuelle. Par exemple, on peut ainsi tol6rer 
des erreurs de position d'un pixel dans I'image sans pour autant avoir de gSne 
visuelle. Dans un schema de codage classique en boucle fermee, il serait alors 
necessaire de corriger cette erreur de mouvement via le codage de la texture. 

Le gain potentiel sur le codage de T information de mouvement est 
IS particuU^rement important, car lors d' application a bas debit (comme par exemple 
256kbit/s pour du CD? k 30 Hz, Tinformation de mouvement peut occuper de 
r ordre de 30 k 40 % du d6bit total dans un schema de type H263). 

AfLn de coder les champs d'information de texture et de mouvement, une 
technique de codage par ondelettes 3D est utilis6e. Cette technique est bas6e sur 
20 I'utUisation du codeur ondelettes JPEG2000 pour la texture qui permet de r^aliser 
une optimisation debit-distorsion du codage tout en offrant une scalabilite 
maximale (spatiale et SNR). Le codeur JPEG2000 etant h la base un codeur 
d'images 2D, le codage par ondelettes 3D est obtenu en lui procurant des images 
multi-composantes, les composantes repr6sentant les differentes sous-bandes 
25 temporelles du volume d'information 3D consider^. 

• Stmcture du codage et scalability 

Afin de coder une sequence vid6o, celle-ci est tout d'abord d6coup6e en 
GOP (Group of Picture). Sur chaque GOP, Tinformation de mouvement et de 
texture sont cod6s s6par6ment, et de fagon scalable. De fagon similaire h la 
30 structure de codage de MPEG pour les images, on distingue deux types de GOP : 
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les GOP Intra et les GOP Inter. Un GOP Intra est un GOP decodable de fa9on 
independante des autres GOP (comme par exemple le premier GOP de la 
sequence). Un GOP Inter est un GOP codd en differentiel par rapport au GOP 
precedent (le but de ce codage Inter est d'am^liorer la compression en 6vitant de 
5 coder une image Intra en d6but de GOP). 

Pour chacun de ces GOP, le maillage utilis6 sur la premiere image est un 
maillage r6gulier, il est done connu au codeur et ddcodeur et n'a pas done besoin 
d'etre cod6 (le coflt des paramfetres le d6finissant comme le nombre de niveau de 
hi6rarchie ou bien encore la taille des maiUes, peuvent en effet etre negliges). La 
10 premifere image du GOP est soit cod6e en Intra (cas d'un GOP Intra), soit 
r6cuper6e a partir du GOP precedent (les GOP Inter ont en commun leur premiere 
image avec le GOP pr6cedent). 

Afin de proposer une scalabilite maximale, les informations definissant la 
demi&re image sont tout d'abord codecs (deformations du maillage, variations de 
15 texture sur la mosaique entre la premiere image reconstruite du GOP et la demiere 
image du GOP). Enfin les informations rdsiduelles sont codecs par une ondelette 
3D avec une technique de codage scalable (cf. JPEG2000). La figure 31 resume 
ces diff6rents niveaux de representation. 

La couche basse peut Stre similaire k une couche basse de type IPPPP d'un 
20 schema MPEG. La couche haute scalable du bitstream vient apporter une 
amelioration progressive sur les images interm6diaire et extr6mit6(s) des GOP. 
• Codage de Tinformation de texture 

Comme pr6sent6 sur la figure 31, 1'information de texture sur un GOP est 
cod6 en deux temps. Dans un premier temps, une couche basse est cod6e 
25 consistant en le codage de la premiere image (si Ton est sur un GOP Intra), et du 
codage de la texture de la derni^re image en mode differentiel. Dans un second 
temps, le r6sidu est quant k lui cod6 via une ondelette 3D. 

L' information residuelle k coder est ddfinie pour chaque image du GOP 
allant de I'instant to k I'instant A comme 6tant 
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I'image : if, = - 



Une transformee ondelette temporelle 



est alors dfifinie sur ces images de rSsidus (utilisation du filtre de type Daubechies 
9,7). Les images consider^es pour cette transformee ondelettes sont toutes les 
images de residu pour le GOP (excepte I'image du residu de la premiere image 
5 pour un GOP Inter). Les images des differentes sous-bandes temporelles sont par 
la suite cod6e via le codeur JPEG2000 en definissant chacune des sous-bandes 
temporelles comme etant une composante de I'image k coder, 

Du fait que la compensation du mouvement a 6t6 r6alis6e au pr6alable, 11 
n'est plus necessaire de prendre en compte la presence du mouvement dans le 
10 codage. 

Au niveau du decodage, les informations de couche basse sont dans un 
premier temps d6cod6es, puis les informations de la couche haute (informations 
dependant du tj^e de scalabilite utilise pour le codeur). On ajoute alors les 
increments provenant de la couche haute aux informations decodees k partir de la 
15 couche basse. 

• Codage de information de mouvement 

L'information de mouvement est codec de fagon similaire a Tinformation 
de texture. Au niveau de la couche basse, la position du maillage est cod6e 
uniquement pour la demifere image du GOP. Au niveau de la couche haute, un 

20 residu est calcul6 sur les positions du maillage via une interpolation lindaire de la 
position des noeuds aux extr6mit6s du GOP. 

Le codage du d6placement dans la couche basse est realist via un codage 
de type DPCM et en utilisant une quantification scalaire uniforme. Pour se faire, 
un codeur de type JPEG-LS a 6t6 adapte. 

25 Sur la couche haute, la transformation ondelette temporelle est dans un 

premier temps r6alis6e pour chaque noeud k Taide de filtre de Daubechies 9,7. 
Cette transformee temporelle donne un ensemble de nuages de valeurs 
correspondant k chaque sous-bande temporelle. Ces nuages de valeurs 
correspondent aux valeurs associ^es aux noeuds du maillage. 
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Similairement h ce qui a 6t6 propose dans [Marquant-2000], une 
transform6e ondelette bas6e maillage est r6alis6e sur ces valeurs afin d'obtenir des 
sous-bandes spatiales. Les sous-bandes spatio-temporelles sont par la suite codees 
en plan de bit k Taide d'un codeur arithmetique contextueL Une optimisation 
5 d6bit-distorsion est r6alis^e afin de d6finir pour chaque sous-bande spatio- 
temporelle le niveau de plan de bit final retenu pour le codage (technique similaire 
k r allocation de d^bit r6alis6 par JPEG 2000 oii I'on utiliserait des blocs EBCOT 
de grande taille). 

Dans la premiere phase de T^tude, le schema de codage de Tinformation 
10 de mouvement etait bas6 sur le codage du maillage de fa§on hi6rarchique et en 
utilisant un maillage adapts afin d'obtenir de bon taux de compression. 
L'utilisation des ondelettes pent etre vue en fait comme une methode gen6ralisant 
ce type de codage. La quantification laisse apparaitre des zones non codees dans 
Tarbre de hierarchic. L'avantage de I'approche ondelette est de foumir une 
15 scalabilite fine ainsi qu'une optimisation d6bit-distorsion adequate, ce qui 6tait 
relativement difficile k d6finir dans Tapproche precedents 
63 Estimation du mouvement 

La premifere 6tape du schema de codage est I'estimation du mouvement 

Les trois points suivants pr6sentent diff^rentes m^thodes d' estimation du 

20 mouvement entre deux images successives. Le dernier point pr^sente la methode 

d'estimation retenue pour notre codeur. 

• Estimation mouvement frappels^ 

Le mouvement est estimd entre deux images successives t et t+1 k 

I'aide des maillages ddformables. Le principe general d'une estimation de 

25 mouvement consiste en la minimisation d'une fonctionnelle 
^P(KPfO-Kp-dpj-l)), avec Q le support d'estimation, p la m6trique 

pEQ 

d'erreur, la plus utilisfe est p(r) = r^, I(p,t) la valeur de Timage I au point p et k 
rinstant t, dp le champ de mouvement dense, dp pent s'6crire : '^y^i(p)dp^ oil 

i 

Wi(p) repr6sentent les coordonn6es de p par rapport aux noeuds i, dpj repr^sente le 
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10 
1 

2 



d6placement associe au noeud i. 

Un algorithme de minimisation de la fonctionnelle est d6crit dans la 
these de MarquantOO (« Representation par maillage adaptatif d6formable pour la 
manipulation et la conununication d'objets videos », Gwenaelle Marquant. Th^se 
de runiversit6 de Rennes 1 soutenue le 14 decembre 2000). La minimisation est 
effectu^e sur les noeuds du maillage, c*est-&-dire que Ton cherche les vecteurs 
d£placements dpi des noeuds de t & t+1. 

L'6nergie est minimis6e par une descente de gradient (type Gauss- 
Seidel), de mani^re iterative. Le syst&me k r6soudre est de la forme : 



Widfd(p))w,(p)VI^{p -dp,t- 1) 



2 -dp,t- l)Adp,] 



^{^{dfdip))\^^iip)Vh(.P 'dp,t- l)dfd{p)} 



« ^{'i^idfd(j?))w,(pm,ip-dpJ-l)Mfd(p)} 
p& 



Les inconnues de ce systfeme sont les Arf/?,.. Ce systfeme est un systfeme 
lin^aire, du type A.X=B et creux. La solution pent Stre obtenue par une technique 
15 de gradient conjugu6, rapide et robuste. 

• Estimation multi-resolution et hi6rarchique 

Dans le cas du codeur de I'invention, Testimation du mouvement pent 
dgalement se faire par maillage multi-r6solution et hierarchique. Cette technique a 
pour but d' assurer une meilleure convergence du systeme. En effet lors de fort 
20 mouvement, la technique de minimisation pr6c6dente pent ne pas converger, de 
plus I'utilisation de maiUages trfes fins provoque une instabilit6 du systeme due k 
un trop grand nombre de param&tres dans le systeme. 

La technique d 'estimation de mouvement par maillage hierarchique 
consiste k gen6rer un maillage hierarchique sur les images t et t+1 et & estimer le 
25 mouvement sur diff6rents niveaux de maillage. 

La figure 3 montre un exemple de maillage hierarchique. La representation 
hierarchique est constituee de plusieurs niveaux de representation, le niveau le 
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plus bas 30 (niveau 0 sur la figure) poss^de un champ grossier (3 noeuds 
seulement pour defiuir le maillage). 

En allant vers les niveaux plus fms 32, 33, 35, le champ se densifie 
progressivement et, le nombre de noeuds du maillage croit. La qualite du 
5 mouvement varie avec les niveaux, le niveau bas 30 repr6sentant le mouvement 
dominant de la scdne, et les niveaux fins affinant le mouvement dominant et 
repr6senter les mouvements locaux. Le nombre de niveaux du maillage 
hierarchique est un param^tre rfiglable de la phase d'estimation, il pent varier 
selon la sequence k estimer. 

10 La technique d'estimation multi-resolution consiste k estimer le 

mouvement h. differents niveaux de resolution des images. Le mouvement est 
d'abord estim6 entre les images h la plus faible resolution, puis il est raffine en 
utilisant des images de plus en plus fines. Comme dcjh mentionne, I'invention 
pent s'appliquer egalement dans le cas d'un maillage k un seul niveau, par 

15 exemple irr^gulier et adapts au contenu. 

L'utilisation de faibles resolutions permet de limiter I'amplitude du 
mouvement, ainsi un mouvement de grande amplitude k la resolution fine de 
rimage aura une amplitude faible k la resolution grossi&re. Une pyramide 
d' images filtrees et decimees est construite k partir des images t et t+1, puis le 

20 mouvement est estime du niveau grossier vers les niveaux plus fins. 

L'estimation de mouvement multi-resolution et hierarchique, dont un 
exemple est presente en figure 4, couple les deux techniques precedentes. Dans un 
premier temps, Testimation est effectuee sur un maillage et un niveau de 
resolution grossiers. Ensuite, les niveaux de resolution et de hierarchie du 

25 maillage sont affines afin de tendre vers la fonctionnelle correspondant k Timage 
pleine resolution avec un maillage fin. 

La figure 4 montre les differentes possibilites d'affinage du maillage et de 
la resolution. 

L'approche -a- correspond k Tapproche multi-resolution seule, et 
30 Tapproche -b- k Testimation hierarchique seule. L'approche -c- permet d'estimer. 
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grace k la multi-resolution, les mouvements de grande amplitude sur le niveau 
grossier et de raffiner ce mouvement localement k Taide de la hi6rarchie de 
maillage. L'approche d est une autre approche combinant multi-resolution et 
maillage hi^rarchique, son avantage est d'utiliser des niveaux de resolution 
5 adgquats par rapport k la taille des triangles du maillage. Le principe de cette 
approche multi-resolution hi6rarchique pour Testimation de mouvement a 6t6 
d6velopp6e dans la thfese de MarquantOO d6jk mentionnee. 

La figure 5 montre Tapproche retenue pour Testimation de mouvement, 
selon un mode de realisation pr6f6rentiel de Tinvention. Cette technique permet 
10 de prendre en compte les diff6rents types de mouvement que Ton pent rencontrer. 
Le paramfetre RO est le niveau de resolution le plus grossier utilise, H_RO controle 
Tamplitude des mouvements locaux estimes, DH permet de limiter le biais lie k 
une estimation sur une image de faible resolution, Hf represente le niveau de 
hi6rarchie le plus fin. 

15 Ces param^tres dependent du type de sequence. Un jeu de parametres fixes 

donnant de bons r^sultats est le suivant : Hf est d6fini afin d'avoir la finesse de 
maillage d^sir^e pour Testimation de mouvement, H_RO = Hf, DH = 2, RO = 3. 

• Estimation multi-grille 

Le principe de cette technique est expUcite plus loin. Cette technique est 
20 coupiee h l'approche multi-rdsolution et hidrarchie de maillage lors de 
Testimation de mouvement. L'estimation multi-grille est utilisee pour riSsoudre les 
problemes de sous-optimalite qui apparalssent lors de I'estimation de mouvement 
sur maillages non reguliers. 

• Combinaison 

25 L' estimation mouvement utilisee dans le codeur est une approche 

combinant la multi-resolution, la hierarchie de maillage et le multi-grille, 
expliquees plus haut. Comme illustre sur la figure 2, le mouvement est estime 
(122) entre images successives t et t+1, puis il est raffine (123) par une estimation 
entre 1 et t+1, oii 1 est la premifere image du GOP. Le maillage est reinitialise 

30 (121) k la premiere image du GOP suivant. Cette approche est repetee (124, 125, 
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126) pour les N images du GOP. 

® Padding de mouvement 

Le padding correspond a T extrapolation du mouvement en dehors de la 
zone definie par I'objet. Le but du padding est ainsi de completer un signal 
5 incomplet par des valeurs proches du signal original. Cette operation apparalt 
ndcessaire dhs que Ton possMe un signal incomplet et que Ton souhaite le traiter 
conune un signal complet 

Dans le cadre de Testimation de mouvement, cette operation intervient h la 
fin de I'estimation du mouvement entre chaque image. En effet, h Tint^rieur d'un 
10 GOP, Testimation est relanc^e h chaque fois k partir du maillage deform^ issue de 
la pr6c6dente estimation, lorsque des mailles sortent du domaine de definition de 
r image, elles gardent leur forme d6formee. Or, ensuite lorsque ces mailles entrent 
de nouveau dans le domaine de definition (mouvement d'aller-retour dans 
Timage), Testimation suivante est de meilleure quality si les mailles qui rentrent 
15 sont homogenes, c'est-^-dire si elles ne sont plus d6form6es. 

Une operation de padding de mouvement est alors appliqu6e k chaque fin 
d'estimation afin de lisser les mailles situ6es en dehors du domaine de definition 
de I'image. 

Le principe du padding pent 8tre le mSme quelque soit le type 
20 d'information que Ton souhaite completer, texture ou mouvement. II est 
semblable h Tapproche multigrille vue plus loin. Le principe est done celui 
d'analyse-synthfese, et on utilise une representation ondelette hi^rarchique de 
r information. 

Si s est le signal k completer, on cherche s une approximation du signal 
25 telle que s = ^c^^q?^^ avec (pj^une base de fonctions orthonormales. 

k 

Pour cela, on minimise la fonctionnelle||^-5|p. Le proc6de de 

minimisation se fait de maniere iterative, conune illustr6 en figure 6. 

Une premiere approximation grossi^re 5^ est calcul6e (analyse 61), puis 

cette premifere approximation est prolongee au domaine fin (synthase 62), pour 
30 obtenir (67) 5^. . On calcule (63) le r&idu j - 5^. , et on affine ensuite la premifere 
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approximation en appliquant le processus sur le residu calcule. 

Le processus est reit^re jusqu'^ un critere d*arr8t (65) qui teste si le r6sidu 
est inf6rieure k un certain seuil, seuil determinant la finesse de T approximation du 
signal. Le padding consiste alors k remplir les zones du signal initial incomplet 
5 par r approximation complete du signal (66). 

Les 6tapes d'analyse et de synthase sont d6pendantes de la nature du signal 
k completer, suivant que le signal repr^sente les informations de mouvement ou 
de texture. Si le signal repr^sente les informations de mouvement, le signal k 
completer est un maillage hi6rarchique. On cherche k completer le niveau de 
10 hi^rarchie fine, on va alors calculer successivement les approximations sur les 
niveaux inf^rieurs, en allant du plus grossier au plus fin. 

L' analyse sur un niveau se fait par la resolution du systeme permettant de 
determiner le mouvement ondelette sur ce niveau, c'est-k-dire que Ton cherche le 
meilleur mouvement k partir des mailles de ce niveau. 
15 L'approximation du niveau fin est ensuite mise k jour avec la solution 

trouvde. Le r6sidu du syst&me est calculd sur le niveau fin, et on passe au niveau 
grossier superieur, le systfeme du niveau fin 6tant converti au niveau grossier, et 
Ton cherche le mouvement ondelette de ce niveau. Au fur et k mesure de la 
propagation dans les niveaux, T approximation du niveau fin s'affine. Le 
20 processus s'arrSte lorsque Ton a resolu le systfeme pour chaque niveau grossier. 
Enfin, les valeurs non d6finies dans le maillage fin initial sont mises a jour k partir 
de Tapproximation fine. 

L'analyse et la synthase d'un signal de texture sont expliquees plus loin 
dans la partie separation du mouvement et de la texture. 
25 6.4 Codage scalable sur deux couches 

• Couche de base 

Le codage se fait sur deux couches : une couche basse et une couche haute. 
La couche basse contient les informations concemant la premifere et la demi^re 
images du GOP. Les images interm^diaires du GOP sont reconstruites par 
30 inteipolation entre ces deux images. 
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Le mouvement et la texture sont obtenus par une interpolation lineaire, 
puis les images sont synth6tisees sur leur grille d*echantillonnage h partir du 
mouvement et de la texture interpol6s, L'interpolation lineaire est de la forme : 
I(t) = a*I(l)+(l-a)*I(N), avec 1(1) la premifere image du GOP, I(N) la dernifere 
5 image du GOP, I(t) une image du GOP entre 1 et N, a=t/N, Ix repr6sente soit 
I'information de texture de Timage x, soit Tinformation de mouvement 

La couche basse est la couche de base qui assure la qualit6 minimale de 
reconstmction pour le codeur. Elle repr^sente le signal initial 6chantillonn6 d'un 
pas de N images. 
10 • Couche basse de type P en boucle fermee 

La couche basse est de type P, la premiere image est codec en INTRA, les 
images suivantes sont codecs par prediction k partir de 1' image I ou P precedente 
cod6e-decodee pour fonctionner en boucle fermee. La couche basse contient les 
informations de texture et de mouvement de la derniere image du GOP et les 
15 informations de la prenriiere si le GOP est un GOP INTRA. 

Si le GOP est un GOP INTRA, la couche basse contient Timage 1(1) 
cod6e. L'image I(N) est cod6e par prediction, on code I(N)-1(1), oii t(l) est 
I'image 1(1) cod6e-d6cod6e. Si le GOP n'est pas un GOP INTRA, seules les 
informations de mouvement et de texture de I(N) sont codees dans la couche 
20 basse. Dans ce cas, pour predire I(N), on utilise I(N) du GOP pr6c6dent, c'est-^- 
dire 1(1) du GOP courant est 6gale a 1(N) du GOP precedent, avec 1(N) Timage 
I(N) cod6e-d6cod6e. 

• Couche de raffinement scalable 

La couche haute est une couche de raffinement qui contient les 
25 informations de mouvement et de texture des images du GOP. Le raffinement des 
images extrSmes (premifere et derniere images du GOP) est un raffinement du 
codage par rapport k leur version dans la couche basse. Le raflSnement des images 
intermediaires est Terreur de prediction entre ces images et leur interpolation k 
partir de la couche basse, cette erreur est dl(t)=l(t) - 1(1) - a*(I(N)-I(l)). 
30 La couche haute est cod^e par exemple par un codeur JPEG-2000, offrant 



wo 2004/086769 



26 



PCT/FR2004/000689 



un flux scalable. 

6,5 Separation du niouvement et de la texture 

° Plaquage des images sur une grille de reference 

i. Le mouvement est cod6 s6par6ment de la texture. Le mouvement est 
5 donnS par la position des noeuds du maillage chaque instant t, 

correspondant k chaque image. La texture est r6cup6r6e par une 
op6ration de plaquage des images sur une grille de reference. 
La grille de r^f6rence est une grille d'^chantillonnage dSfinie par la 
position des noeuds dans cette image. L' operation de plaquage de 
10 rimage i sur Timage k consiste i reconstruire Timage i sur la grille 

de rimage k, c'est-?l-dire & redresser Timage i par rapport h. I'image 
k, rimage reconstruite Ir a la meme grille d'6chantillonnage que 
rimage k. 

Le support de reconstruction des images peut 6tre plus grand que le 

15 support initial de Timage afin de prendre en compte les mouvements 

qui sortent de T image, la taille du support est determinee 
Testimation du mouvement et depend de I'amplitude de celui-ci. Au 
moment du plaquage sur la grille de r^f^rence, on rdcup^re 
6galement un masque de meme taille que le support de plaquage et 

20 indiquant les pixels du support qui ont €\€ reconstruit. 

L'exemple illustr6 par les figures 7A 7F montre le plaquage d'une 
image k (figure 7B) sur une image i (figure 7A), connaissant le 
mouvement entre i et k (position du maillage ^ i (figure 7C) et 
position du maillage & k (figure 7D)). 

25 L'algorithme 1 pr6sent6 en Annexe 3 est Talgorithme de 

reconstruction de Timage k projet6e sur Timage i (figure 7E). Pour 
reconstruire T image Ir, on parcourt cette image, les positions des 
pixels €tant done enti^res, et on cherche le correspondant de chaque 
pixel de Ir dans I'image k en lui appliquant le mouvement inverse de 

30 i vers k. 
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Les vecteurs mouvement n'ayant pas des valeurs entiferes, le pixel 
correspondant n'a done pas une position k valeurs entieres. Une 
interpolation bilin6aire est alors ndcessaire pour calculer sa valeur de 
luminance. 

5 La figure 8 d6taille T interpolation bilin^aire effectu6e entre les 

valeurs de luminance aux valeurs entieres : 

Interpolation bilin6aire de la luminance L en M : 
a = (l-u)*L(p,q) + u*L(p+l,q) 
b = (l.u)*L(p,q+l)+u*L(p+l,q+l) 
10 L(„,,) = (l-v)*a+v*b 

La luminance ainsi calculee est affectee au pixel courant de I'image 
Ir k reconstruire. Les pixels reconstruits doivent d'abord etre 
contenus dans le masque de definition de T image i, puis les pixels 
deplac6s doivent etre predictibles c'est-a-dire contenus dans le 
IS masque de definition de I'image k, le masque de prediction (figure 

7F) de rimage k prend alors la valeur « vraie » aux pixels r^pondant 
k ces deux crit^res. 
J ii. Au niveau du choix des grilles de r6f6rence pour la projection des 
images et la recuperation des textures, on utilise, comme illustre en 
20 figure 9, deux grilles d'echantillonnage de reference, celle de la 

premifere 71 et celle de la demiere image 72 du GOP. Pour un GOP 
de N images, les images 73 de 1 & (N+l)/2 sont plaquees sur la 
premiere image 71 du GOP, les images 74 de (N+l)/2+l k N sont 
plaquees sur Timage N 72. 
25 • Padding 3D de la texture 

iii. Padding 2D 

Le plaquage des images sur une autre grille de r6f6rence que la leur 
implique que des zones du support restent ind6finies aprds 
I'operation de plaquage. Ces zones sont reper^es grSce au masque de 
30 prediction de Timage plaquee. Ces zones non definies sont remplies 
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par une operation de padding. 

Le padding d*une image consiste k remplir les zones oH Timage n'est 
pas definie par des valeurs proches de celles definies du voisinage. 
Le padding est bas6 sur un principe d'analyse-synth&se. 
5 L*image k completer est analysde, puis synthetis^, et on calcule le 

residu par rapport k la synthese et on reprend Tanalyse sur ce r6sidu. 
La figure 10 montre un tel principe. Des versions basse fr^uence 
successives de Timage sont calcul6es avec les valeurs d6finies sur 
des blocs recouvrant Timage, puis les basses frequences sont 

10 successivement expans6es dans les zones non definies. 

Par exemple pour une image lo 101 au format GIF de taille 352x288 
pixels, une premiere basse frequence est calculee sur un bloc de 
taille 512x512 recouvrant toute T image. La moyenne est calcul6e sur 
les pixels de Timage qui sont definis dans le masque de prediction, et 

15 les pixels non d6finis sont k 0 (en noir sur la figure). 

Une image moyenne Imoyl 102 de la taille du bloc est remplie avec 
la valeur de la moyenne calculi. 

ConMxie il n'y a qu'un bloc, il n'y a qu'une seule valeur de moyenne. 
Une image residu II 103 est alors calculfe en soustrayant Timage 

20 originale k Timage moyenne (II = lo - Imoyl). 

(*) Le bloc de taille 512x512 est divise en 4, (les blocs sont de taille 
256x256), et le processus reprend alors au calcul de la moyenne sur 
chaque bloc, mais la moyenne est maintenant calculee sur les pixels 
de I'image r6sidu II qui sont definis dans le masque de prediction de 

25 rimage originale. L'image moyenne Imoy2 104 obtenue est ajout^ 

(105) k rimage moyenne pr6c6dente. La demifere image obtenue 105 
est soustrait k II pour obtenir 12 106. 

Le processus reprend depuis (*) en consid6rant 12 ^ la place de II. 
Ce processus s'it&re jusqu'i ce que la taille des blocs soit 6gale k la 
30 taille du pixel. 
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Le remplissage des zones non definies par des versions basses 
frequences entrame un flou dans ces zones ind6finies par rapport aux 
zones definies. 

Cependant la continuity dans Timage est pr6serv6e. Les zones non 
S definies deviennent d6finies apres I'opdration de padding, le masque 

de prediction de T image originate prend alors la valeur « vraie » en 

tout pixel de Timage. 
iv. Padding temporel 

Le padding effectu6 par le codeur est un padding 3D. II prend en 
10 compte des images 2D et la dimension temporelle. Un padding 2D 

est effectu6 sur la premiere (II) et la demiere image (IN) du GOP, 

puis un padding temporel est effectue pour completer les autres 

images du GOP. 

Le padding temporel utilise le fait que les images internes du GOP 
IS sont pr6dites par une interpolation lineaire entre les deux images 

extremes. Comme on code ensuite les r6sidus de prediction par 
ondelette 3D, on cherche k avoir des r6sidus le plus faible possible. 
Le padding doit done completer les zones non d6finies avec des 
valeurs qui donneront des r6sidus txhs faibles, voire nuls en ces 
20 points, tout en gardant une continuity spatiale et temporelle. 

Pour cette raison, les images internes du GOP sont completees par 
une interpolation lineaire k partir des deux images extremes paddees 
spatialement. On parcourt done chaque image du GOP entre 1 et N, 
et pour chaque pixel de Timage courante t. Si le pixel est non d6fini 
25 dans le masque, sa valeur est alors : a*I(l)+(l-a)*I(N) , oil a = t/N. 

M Codage 4u nwuyement 

Le principe de ce codage est illustr6 par Torganigranome de la figure 13. 
o Codage dans la couche basse 

Dans la couche basse, les informations de mouvement codecs sont les 
30 positions du maillage dans la demi&re image du GOP. 
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On effectue une prediction (131) des positions du maillage 
dans la demi&re image avec les positions du maillage dans la 
premiere image du GOP. On code alors I'erreur de prediction, 
comme expliqu6e pr6c6denunent : (couche basse de type P). 
Les informations de mouvement issues de 1' estimation sont 
donn6es pour le niveau de hi6rarchie du maillage le plus fin. 
On effectue alors une remont6e (132) des valeurs vers les 
niveaux plus grossiers. Pour le niveau le plus grossier, on a les 
positions des noeuds intervenants a ce niveau, et pour les 
niveaux suivants plus fins, les positions des nouveaux no&uds, 
noeuds milieux d'arcs. 

Les valeurs sont ensuite quantifiees (133) avec un pas de 
quantification de 0.5. 

Puis les valeurs quantifiees sont pass6es k un codeur 
arithmdtique (134) qui d^finit une statistique diff6rente pour 
chaque niveau de hi^rarctiie. Un codeur arithm6tique code un 
ensemble de valeurs par un message constitu6 de plusieurs 
symboles. Les sjmiboles ne sont pas cod^s s6par6ment. Si on 
repr6sente le message resultant k Taide d'intervalles, chaque 
message possible est cod6 sur un intervalle Ti de probability pi. 
La statistique d'un codeur arithmetique est I'ensemble des 
probabilites de chaque intervalle. Dans le cas de I'invention, le 
codeur initialise les probabilitds a 1/n, ou n est le nombre de 
symboles k coder, au depart tons les messages sont 
6quiprobables..Les probabilit6s sont mises k jour k chaque fois 
qu'une valeur de Tensemble est k coder. Quand toutes les 
valeurs sont cod6es, il suffit de transmettre un nombre compris 
dans rintervalle du message resultant. 

Le codage arithmdtique des positions du maillage utilise des 
statistiques diff6rentes pour chaque niveau de hi6rarchie, car 
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les valeurs sur un niveau de hierarchic donne ont plus de 
chances d'Stre proches les unes des autres, que des valeurs 
entre niveaux differents. La similitude des valeurs permet de 
r^duire la taille du message k transmettre, done un gain en coQt 
5 de codage. 

v. Seuls les noeuds valides du maillage sont h code. Un noeud est 
valide s'il appartient k un triangle valide, et un triangle est 
valide s'il reconstruit au moins un pixel dans le masque de 
rimage. Les noeuds non valides ne reconstruisent aucun pixel 
10 de rimage, il est inutile de les coder. 

• Codage dans la couche haute 

i. Les informations de mouvement dans la couche haute sont les 
informations concernant les positions intermediaires du 
maillage, entre la premiere et la demiere image du GOP. On 

IS decode done les positions dans la demiere image (135), puis 

on pr6dit par interpolation (136) les positions des images 
intermediaires. On code les r6sidus (137)d'interpolation entre 
les positions dans ces deux images et les positons 
intermediaires. Si m(l) et m(N) sont respectivement les 

20 positions du maillage dans la premiere et la demi&re image, les 

r6sidus que Ton code ensuite sont alors : res(t) = m(t) - m(l) - 
(l-t)/N*m(N). Les r^sidus que Ton code sont les r^sidus des 
noeuds valides. 

ii. Les residus sont transform^s (138) par une ondelette 
25 temporelle « zeroside » avec un filtre d' Antonini. (donne en 

annexe 1). 

iii. Le mouvement r^sidu des images intermediaires est ensuite 
transforme en mouvement ondelette (139). Le mouvement 
ondelette est la representation du maillage par niveaux 

30 hierarchiques, oix pour chaque niveau, la position des noeuds 
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doiinee est la position optimale pour ce niveau de hierarchie. 
Le niveau le plus grossier donne le nniouvement global de la 
scfene, les niveaux plus fins permettent des raffinements 
successifs des mouvements locaux. A chaque niveau de 
maillage, les informations h coder sont les nouveaux noeuds 
cr6es en milieux d'arcs et le raffinement des positions des 
nceuds deji pr6sents au niveau inf6rieur. 
Le fait d' avoir des positions de noeuds optimales h chaque 
niveau de hierarchic permet d'effectuer une optimisation 
debit/distorsion sur chaque niveau. 

Le processus d' optimisation debit/distorsion 1310 calcule 
d'abord pour chaque niveau de hierarchie, les debits et 
distorsions associes h chaque pas de quantification. Pour un 
d6bit donn6, on cherche la combinaison optimale des differents 
points de chaque niveau de hierarchie, combinaison qui 
fournira le meilleur compromis entre d6bit et distorsion, 
chaque niveau est pond6r6 par un poids tenant compte de son 
influence sur la qualit6 du mouvement rendu. 
Les niveaux grossiers auront un poids plus important que les 
niveaux fins, ce qui signifie que lors de la recherche de la 
meilleure combinaison, la distorsion associee h un pas de 
quantification sera plus forte pour un niveau grossier que pour 
un niveau fin. En effet, une erreur au niveau grossier est plus 
visible qu'a un niveau fin. 

Le processus d'optimisation ddbit/distorsion foumit les pas de 
quantification associ6s k chaque d6bit h appliquer k chaque 
niveau de hierarchic du mouvement pour avoir un codage 
optimal. 

Les valeurs des niveaux de hierarchie sont ensuite quantifies 
pour un debit donne et passees k un codeur 



wo 2004/086769 



33 



PCT/FR2004/000689 



arithm6tique(1311). 
Codage avec pertes 



Une des innovations de I'lnvention par rapport aux sch6mas existants est 
que le mouvement est cod6 avec pertes. Le mouvement cod6 avec pertes permet 
S de reconstruire une viddo de m§me aspect que la vid^o originale mais d6cal6e au 
niveau pixel. 

En, effet, la viddo reconstruite est en fait synth6tis6e avec les informations 
de mouvements et de texture d6cod^s. Le codage du mouvement avec pertes tient 
compte du fait que Toeil humain est moins sensible aux d6fauts de mouvements 
10 d'une vid6o qu'aux d6fauts de textures. Ainsi, le debit gagn6 sur le mouvement 
est repercut6 sur le codage de la texture et permet d'am61iorer celle-ci. 
6 J Codage de la texture 



Le principe de ce codage est illustre par Talgorithme de la figure 12. 
• Codage dans la couche basse 



15 



i. Si le GOP ^ coder est un GOP intra (test 121), on code (122) la 
premiere image du GOP en intra avec un codeur JPEG-2000. 



20 



ii. On pr6dit (123) la demifere image du GOP avec la premifere 
image. Si le GOP est un GOP intra, Timage servant ^ la 
prediction est la premifere image du GOP d6cod6e (124) ; sinon 
c*est la demifere image du GOP pr6c6dent codee-d6cod6e 
(125). L'erreur de prediction est alors cod6e (126) par un 



codeur JPEG-2000. 



Codage 



dans la couche haute 



i. 



Les images extrSmes codecs en couche haute sont un 
raffinement de codage par rapport k la couche basse. Si le GOP 
est iin GOP intra, la premidre image dans la couche haute est 
un raffinement de codage sur cette image. Si le GOP est un 
GOP inter, on n'a pas de raffinement pour cette image. Le 
raffinement sur la demiSre image est toujoiurs present 



25 



30 



u. 



Comme pour le mouvement, des r^sidus d'interpolation sont 
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calcules (127) sur les images intermddiaires, k partir des image 
interpolees (128). Soient 1(1) et I(N) les images extrSmes du 
GOP, res(t) = I(t) - 1(1) - (l-t)/N*I(N). 

iii. Les residus sont ensuite traiisfomi6s par une transformee 
5 ondelette temporelle (129). La transform6e ondelette est 

utilis6e sous sa forme lifting et le filtre utilise est le 5/3 (domi6 
en annexe 1). 

La transformee est appliqude sur les residus des images 
interm6diaires le long de la txajectoire du mouvement. 
10 Des compensations en mouvement sont alors necessaires au 

moment du calcul de coefficients n'utilisant pas la meme 
image de reference. 

iv. La transformee est une transformee « zeroside ». Avec 
I'interpolation effectuee, le signal k transformer est nul aux 

15 extremites. En effet les valeurs de la premiere image du GOP 

et de la demise image sont nulles par Tinterpolation utilis6e : 
I(t)i„terp= (l-a)*I(l) + a*I(N) , pour 1(1) et I(N), a vaut 
respectivement 0 et 1, ce qui donne alors 0 poiir le r6sidu en 1 
etN. 

20 La figure 11 donne Tallure du signal r6sidu consid6re I(t)-I(t) 

interp. La forme du signal montre la validite de la prediction 
du signal texture (et mouvement) par Tinterpolation lin^aire. 
La prediction est exacte aux extremites et de moins en moins 
sflre au fur et a mesure que Ton s'approche du centre du GOP. 

25 Lors de la transformee temporelle, le signal transforme est le 

rdsidu d'interpolation defini entre 2 et N-1. 
Au moment du calcul de coefficients situ6s aux bords du 
signal, une symetrie est appliqu^e au signal pour pouvoir 
simuler un signal k support de longueur infinie. Cependant, 

30 comme on connait la valeur du signal en 1 et N (en ces points 
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le signal est nul), on considere que la transformee est en fait 
appliquee de 1 k N. De ce fait, on n' applique plus une sym6trie 
aux bords mais une antisym6trie. 
V. Les sous-bandes resultant de la transform6e ondelette 129 et 
5 les raffinements de codage des images extremes (obtenu par 

calcul des r^sidus 1210 et 121 1, respectivement sur la premifere 
image d6cod6e (124) et la demiere image d6cod6e (1212)) sont 
ensuite cod6s par un codeur 1214 progressif scalable, de type 
JPEG-2000. 

10 Les niveaux de decompositions en ondelette utilise dans la 

decomposition en ondelettes spatiales 1213 sont differents 
suivant la nature de la composante a coder. Les residus de 
codage sont des hautes frequences qu'il est preferable de 
transformer avec peu de niveaux de decomposition 
15 d' ondelette, on utilise un seul niveau de decomposition et des 

blocs de taille 16x16. Pour les sous-bandes temporelles, on 
tient compte de la frequence de la sous-bande : pour la basse 
frequence, on utilise cinq niveaux de decomposition, pour les 
txhs hautes frequences trois niveaux et pour les hautes 
20 frequences intermediaires quatre niveaux de decompositions. 

La taille des blocs est 64x64 quelle que soit la sous-bande. 
6.8 Train binaire 

Le train binaire est compose des quatre flux resultant des quatre codages : 
flux de texture bas niveau, flux de mouvement bas niveau, flux de texture de 
25 rehaussement, flux de mouvement de rehaussement. L'agencement du train 
binaire est un agencement multi-champs qui depend de Tapplication necessitant le 
train binaire. 

L'application dispose de trois champs : mouvement, texture et forme. 
Chaque champ pent 6tre coupe n'importe oil, une qualite de base etant assuree 
30 pour chaque champ par les informations de la couche basse de chaque champ. 
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L' application peut alors choisir la qualit6 d^sir^e pour chaque champ 
(mouvement, texture et forme), les champs resultants sont alors multiplexes pour 
former un train binaire h transmettre a Tutilisateur, 

^2 Processus de decoda^e 

5 Le processus de decodage recupere les informations de mouvement et de 

texture du flux binaire. Le mouvement est d'abord d6code puis la texture. 
° Pgcodage du mouvement : 

Un maillage hi^rarchique r^gulier est g6n6r6 par le d6codeur sur la 
premiere image, de la mSme manifere que le codeur I'avait fait, ainsi les maillages 
10 initiaux du codeur et decodeur sont identiques. Les positions du mouvement dans 
la demifere image sont alors decodees, k ces positions sont ajout^es les positions 
du maillage de la premiere image. 

Les positons des images intermediaires sont interpolees, comme au 
codage, par les positions dans la demi&re image et dans la premiere image. Puis, 
15 I'information de mouvement de la couche haute est d6cod6e au d6bit indiqu6 en 
param^tre. 

Les informations decod6es correspondent aux sous-bandes spatio- 
temporelles de mouvement. La transformation inverse en mouvement ondelette 
est appliqu6e sur les sous-bandes, puis Tondelette temporelle inverse (filtre de 
20 synthase d'Antonini donnd en annexe 1) est appliqu6e. Les r6sidus obtenus sont 
ajoutes aux valeurs precedenmient interpolees. 
• D6codage de la texture : 

Le decodage de la texture est similaire au d6codage du mouvement. II est 
cependant n6cessaire d'identifier si le GOP courant est un GOP intra. Si c'est le 
25 cas, la premidre information de texture de la couche basse k decoder est la texture 
de la premifere image du GOP. Une fois celle-ci d6cod6e, le r6sidu de la dernifere 
image est d6cod6 et ajoute k la prediction de la derni^re image (prediction 
effectuee de la m8me fagon qu'au codage par la prendfere image). 

Les images intermediaires sont ensuite interpolees comme on Ta fait au 
30 codage. Si le GOP est un GOP inter, la prediction de la demifere image du GOP 
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est faite par la demidre image decod6e du GOP pr6c6dent. Les informations de 
texture de la couche haute sont ensuite decod6es. Les r6sidus de codage des 
premiere et demiere images du GOP sont respectivement ajout^s k celles-ci. 

Les sous-bandes temporelles des images interm6diaires sont transform^es 
5 par Tondelette lifting 5/3, les filtres utilises en lifting dans la transform^ directe 
et la transform6e inverse sont les mSmes, seuls les signes des deux Stapes sont 
inverses, selon le principe du lifting expliqu6 en annexe 2. 

Les r^sidus obtenus sont ajout^s aux images interm^iaires pr6c6demment 
interpol6es. 

10 • Synthase de la sequence vid6o : 

La synthese de la sequence viddo projette les images de texture sur leur 
grille d'^chantillonnage originale, c'est la phase qui couple le mouvement et la 
texture pour obtenir au final une sequence video synthetisee la plus proche 
possible de la sequence vid6o originale. 
15 • Mesure de qualitg de la sequence vid6 o reconstmite : 

Le calcul du PSNR entre la vid^o reconstmite et la vid6o originale ne 
donne pas un critfere fiable permettant de juger de la quality visuelle restitute par 
la vid6o reconstmite. En effet, le codage du mouvement avec pertes implique que 
la sequence vid6o est synth6tis6e de maniere decal^e par rapport k la sequence 
20 originale, le PSNR calcul6 alors biaise par ce decalage. 

Le critere utilise alors pour la mesure de quality de la sequence synthetisee 
est un PSNR calculi dans le domaine des images de texture. L'hypothfese faite est 
que Toeil humain n'est pas sensible aux d6fauts de mouvement d'une sequence, 
dans la mesure oil les defauts restent inferieures k un certain seuil. 
25 De ce fait, le PSNR texture, qui calcule la distorsion entre les images de 

texture originales et les images de texture d6cod6es, rend une mesure de qualit6 
restitute de la sequence synth6tis6e. 

iL£ Ge^tion des retournements sinere par Vesam ation de mouvement base 

maillage 

30 o Principe 
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Les maillages d^formables d6finissent une representation continue d'un 
champ de mouvement alors que le mouvement reel d'une sequence vid^o est de 
nature discontinue. Ainsi, lorsque difKrents plans et objets se recouvrent dans une 
sc^ne, des zones d'occultation et de d^couvrement apparaissent, g6n6rant des 
5 lignes de discontinuit6s. 

Mod61iser de tels artefacts par un maillage global, par opposition aux 
maillages segmentds selon les objets vid6o constitutifs de la sc5ne, constitue une 
difficulte non resoluble sans modification du modMe de representation. L*enjeu 
consiste done h eliminer cette degradation visuelle mais aussi la limite en terme 
10 d' analyse, en determinant les zones en d^faut. Classiquement, ce type de 
perturbation du champ r6el de mouvement entraine dans sa representation maillee 
des retoumements comme pent le montrer la Figure 14. 

Habituellement, afin de resoudre ce problfeme, deux types de techniques 
sont utilises : le post-traitement et la mise en place de contraintes de non- 
15 retoumement. 

Le post-traitement pent 6tre realise suivant deux types de scenarios : le 
premier (correction a posteriori) consiste k appliquer tel quel les vecteurs de 
mouvement, k detecter ceux en defaut puis k corriger leur valeur ; le second 
procfede iterativement, ajoutant une partie du deplacement escompte aux noeuds k 
20 chaque iteration tel qu'il n'y a pas de retournement, et bouclant jusqu'a 
convergence du processus. 

Les methodes de post-traitement agissant une fois Testimation realisee, le 
resultat est sous-optimal car les vecteurs de mouvement sont corriges 
independamment de leur contribution k la minimisation de Terreur de prediction. 
25 Une amelioration consiste done k optimiser le champ en prenant compte au cours 
du processus d'optimisation les contraintes de non-retoumement. 

Pour cela, on doit adapter I'estimation de mouvement en ajoutant k Terreur 
quadratique de prediction un lagrangien augmente permettant de corriger la 
deformation des triangles lorsque ceux-ci s'approchent du triangle d'aire nuUe. 
30 Cette demifere technique permet effectivement de determiner la solution optimale 
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du probleme, si ce dernier repr6sentait un cliamp continu. Or, la nature d'une 
sequence video dtant discontinue, on pent utiliser une autre technique consistant k 
determiner les zones de discontinuites afin de les restaurer en g6n6rant 
1' apparition ou disparition d'objets, 
5 ® Approche utilisge dans le mode de realisation d^cri t 

Cette technique, dans le document de brevet FR-99 15568, permet de 
r6soudre le problfeme de retoumement g6n6r6 par Testimateur de mouvement base 
maillage. 

EUe consiste k laisser Testimateur de mouvement creer les 
10 retoumements entre deux instants successifs tl et t2 ; ainsi en reperant les zones 
de retoumements, les zones de discontinuites sont detect^es. Le processus consiste 
alors k r6aliser une nouvelle estimation de mouvement entre tl et t2 en excluant 
les zones en def aut (zones contenant au moins un retoumement) afin de nmiimiser 
I'erreur de prediction entre les deux images considSrees. 
15 Cette r^optimisation permet de d6terminer les vecteurs de mouvement 

optimaux pour la zone continue (i.e. admettant une bijection entre tl et t2) et 
d'6viter ainsi la perturbation des valeurs des vecteurs mouvements obtenus dans 
Toptimisation pr€c^ente g6n6r€e par les zones de discontinuites. 

Dans cette approche, Les zones en ddfaut peuvent alors etre trait6es de 3 
20 maniferes diff^rentes. 

• Propagation artificielle 

La premiere id6e consiste k propager de fagon artificielle les vecteurs de 
mouvement des sommets du maillage ayant exclu les zones en d6faut, appel6s 
sommets INSIDE, vers les sonunets des zones en d^faut pour lesquels nous avons 

25 optimist la compacit6 des triangles concemes. Cette propagation repose sur un 
double balayage it^ratif avant-arrifere, appliqu6 aux sommets du plus bas niveau 
de la pyramide oh les vecteurs de mouvement ont 6t6 optimises (niveau note L J. 
Cette approche s'inspire des calculs de carte de distance de chanfrein (« Les 
distances de chanfrein en analyse d'images : fondements et applications ». 

30 Edouard THIEL. Thfese de TUniversitg Joseph Fourier de Grenoble soutenue le 21 
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Septembre 1994). EUe suit ralgorithme suivant : 
Algoritlime : 

° Pour tous les sommets Sde 

si INSIDE(S) alors S devient PROPAGATED sinon S devient non- 
5 PROPAGATED 

o Iterer tant qu'il reste des vecteurs mouvement indifinis 

° Pour tous les sommets S de parcourus de haut-gauche vers has- 
droite 

si non'PROPAGATED(S) et S possede au moins 2 voisins 
10 PROPAGATED 

alors MOUVEMENT(S) = moyenne des MOUVEMENTs des 
voisins PROPAGATED 

S devient PROPAGATED 
• Pour tous les sommets S de parcourus de bas-doite vers haut-gauche 
15 si non-'PROPAGATED(S) et S possede au moins 2 voisins 

PROPAGATED 

alors MOUVEMENT(S) = moyenne des MOUVEMENTs des 
voisins PROPAGATED 

S devient PROPAGATED 
20 • Pour tous les sommets P de la pyramide parcourue de L,„.y d Lq 
MOUVEMENT(P) = MOUVEMENT(F) tq P est pdre de F 

On peut egalement utiliser deux autres techniques : la fusion de sommets 
et les maillages n-manifold. 
25 • Fusion de sommets 

La premi&re consiste d6tecter au niveau du ddcodeur les zones 
d*occultation d6termin6es par les triangles ayant des sommets aux vecteurs de 
mouvements antagonistes (entire CA). Effectivement, les triangles ainsi d6tect6s 
sont susceptibles de se retoumer puisque leurs sommets sont positionn^s sur des 
30 objets diff^rents (un des deux objets occultant son voisin). 
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Dans ce cas, on propose de pratiquer une fusion d^aretes (« edge 
collapse ») entre deux sommets voisins ayant un mouvement antagoniste. II en 
r^sulte la disparition tfun triangle, traduisant la disparition d'une partie d*un objet. 

Ce principe, est illustr6 par la figure 15. 
5 ® Maillage "n-manifold" 

Un deuxi^me proc^dd consiste k travailler sur des maillages n-manifold 
(une arete pent Stre partagde par n, n>=2, triangles au lieu de 1 ou 2 
habituellement). Pour ce faire, on realise les estimations de mouvements. 
Lorsqu*une zone d'occultation est d6tect6e (retoumement de triangles), les 
10 triangles alors associes k cette zone sont marques d'un flag OVERLAPPED 
(nouveau^ag). 

On refait alors I'optimisation de mouvement en excluant les triangles 
OVERLAPPED, Cette seconde optimisation pent conduire au retoumement de 
nouveaux triangles : ceux-ci sont 6galement marques OVERLAPPED et 
15 Toptimisation est de nouveau calculee. La zone OVERLAPPED marque ainsi les 
d€couvrements ou recouvrements. 

Les zones marqu6es OVERLAPPED, correspondent done k des objets 
ayant 6X6 occult6s. L'id6e retenue consiste a temporairement 6vincer ces triangles, 
tout en les conservant en mfimoire afin de gdrer dconomiquement leur r6apparition 
20 future. 

Selon la topologie d*un sous-maillage OVERLAPPED, deux cas se 
pr6sentent : 

• Les fronti^res du sous-maillage sont rescinddes. Le maillage devient n- 
manifold (avec n = 3 ) ;; 
25 • Une seule partie des fronti^res du sous-maillage est rescind^e et dans 

ce cas une correction locale intra doit Stre iealis6e sur les autres mailles 
OVERLAPPED. 

Le fait d'utiliser un maillage n-manifold permet de conserver les 
informations photom6triques relatives k des zones pouvant disparaitre mais 
30 dgalement apparaitre k diverses reprises durant la sequence. 
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Un exemple d'un tel maillage "n-manifold" est illustre par la figure 16. 
dJO — Exemnle de mise en usuvre pnur In gestion des retournements des 

- Detection et dSconnexion des trian gles d^genirSs ou retournds : 
5 Afin de limiter les retournements de mailles, les triangles susceptibles de 

provoquer des retournements sont d6tect6s la fin de Testimation 1 vers t. Ces 
triangles ont une forme d6g6n6r6e et provoque des perturbations dans Testimation 
de mouvement, ils indiquent les zones de d6couvrements et recouvrements. 

A leur detection, ces mailles sont d6connectees du reste du maillage et 
10 Testimation est relancee sans prendre en compte ces zones. De la meme fagon, les 
triangles retoumes sont d6tectes et d^connectes du maillage. La detection des 
triangles retoumes se fait en regardant si le triangle est defini dans le sens positif 
ou n6gatif . Initialement tous les triangles sont orientes dans le sens positif (direct), 
si lors du calcul du produit vectoriel du triangle le signe est n6gatif, alors le 
15 triangle est retoum6. La detection des triangles d^g6n6r6s se fait par Tdtude de la 
d6formation du triangle entre Timage 1 et I'image t. 

La deformation d'un triangle pent Stre 6tudiee en considSrant les 
param&tres de mouvement du triangle de 1 vers t. Si (x,y) est la position d'un 
point en 1 et (x',y') la position du point en t, les parametres du mouvement affine 
20 sont tels : 

x' = ox + fry + c 
Soit sous forme matricielle 



+ 5 , B traduisant les parametres 



de translation, et A les parametres de zoom et de rotation. La translation ne 
d^formant pas le triangle, nous ne nous int6resserons qu'k la matrice A. Soit D la 
25 matrice diagonale de A, Z) = , avec \et)^ les valeurs propres de A. 

Un test est d'abord effectu6 sur le rapport des valeurs propres pour savoir 
si la deformation est un zoom global, le rapport des valeurs propres peut 6tre 
calcuie via la trace de A_ et le determinant de A. 
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Dans le cas d'un zoom global (changement de resolution de mdme 
grandeur en x et y), le triangle n'est pas considere comme d6form6, car sa 
structure est la mSme en t et en 1 ^ un facteur d*6chelle pres. 

Dans le cas oix le rapport des valeurs propres est different de 1, la 
5 deformation n'est pas la m@me dans les deux sens. On 6tudie alors les valeurs 
propres de A. La resolution du trinSme x_-traceA_*x+(detA)_, x une des valeurs 
propres de A, nous donne les deux valeurs propres de A. Selon la valeur des 
valeurs propres, le triangle est consider^ d6g6n6T6 on non. S'il est deg^nere, on le 
deconnecte du maillage. 

10 6.11 Estimation de mouvement basSe sur Vapproche multigrille 

Afin d'am61iorer la convergence de Talgorithme brevet6 en Sept 98 (98 11 
227) concemant un proc6d6 d'estimation de mouvement entre deux images base 
svu: un maillage hierarchique emboite, nous avons developpe une nouvelle 
technique issu du monde des mathematiques appliquees, appele multigrille. 
15 Pour ce faire, nous allons d^crire Tapproche multigrille associ6e aux elements 

finis. 

On cherche : 

u^V^, a{u,v)^L{y\ VvGF^ (/) 
oil Vff repr6sente un espace vectoriel de dimension N , a(u,v) une forme bilin6aire 
20 sur Vj^ X et L (v) une forme lin^aire sur V^r . 

A partir de chaque sous espace Vj^ C de dimension M <Ny on pent 

construire une m^thode de resolution a deux niveaux de la fa9on suivante : 

Etant donnee u&V^ approximation de la solution exacte u, la correction 

c = M - M verifie done : 
25 c&V^, ^(c,v) = L(v)-<M,v), VveF;,, (i7) 

On de&iit une approximation de c par : 

c^er^ y6xmantaic^,w)^L(w)^a(u,w), ^fw^V^ {III) 

Examinons la representation matricielle de ces differents problfemes. 
Appelons %,l^i^N les fonctions de base de Vj^ et *y ,1 ^ J^M celles de 

30 Puisque e C V^, il existe done des coefficients r^^ tels que : 
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i 

Appelons R la matrice de Z(3fl^,9fl^)dont les coefficients sont les r^^. 
Une fonction yEiVj^ C Vj^ qui s'^crit y = ^Vj^j s'6crit done encore : 

5 ce qui d6finit rop6rateur de prolongement par : 
^' "^^^0/ soit x«iJV 

La solution u de (I) s'6crit ^ ^iVi 

Appelons encore weSR^, le vecteur de composantes w,. Si on d^finit la 
matrice A e hi^^) et le vecteur i> e3fl^ par : 
10 = ci((PpVi) et fc, = L{q)f) 

On sait que u est solution de : 

et c , solution de (II) v6rifie : 
Ac = b- Au 

15 On v6rifie que solution de (HI) satisfait : 

(RAR')c^ ^R{b-Au) 

Cette fagon systematique de definir des approximations dans F^pour des 
problemes poses dans permet de construire des fonctions, toutes d^finies sur le 

mSme domaine k savoir celui correspondant au maillage fin mSme si elles sont 
20 caract6ris6es par des param^tres attaches aux noeuds du maillage grossier. 

La figiure 17 illustre cette approche sur un exemple, associant k un 
maillage fin 171 un maillage grossier correct 172 et un maillage grossier incorrect 
173. 

Afin de faciliter la comprehension de Talgorithme, nous allons r6soudre le 
25 systfeme Hd = F sur 2 grilles. 

On ^crit le systeme lin6aire Hd = F sur la grille fine. 
Soit P rop6rateur de prolongement de la grille grossi^re sur la grille fine 
alors la methode k 2 grilles se formule de la fagon suivante : 

Ayant obtenu aprfes quelques iterations de Gauss Seidel (par exemple) une 
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approximation d , on calcule le r^sidu F-Hd . On cherche la correction v k 
ajouter d sous la forme v = Pw, ou w est solution de : 
QHPw^Q[F^Hd) 

L'op6rateur sur la grille grossifere est done repr6sent6 par la matrice QHP. 
5 Remarquons que Q^P^ est un op6rateur de restriction possible qui dans 

le cas oh H est une matrice sym6trique d6finie positive, possMe Tavantage de 
conduire k la matrice P'HP qui est une matrice sym6trique definie positive 
P^HP est la restriction de la matrice H au sous espace vectoriel ImP). 

Cherchons k determiner un operateur de prolongement P, Q==P\ 

10 Si P est Toperateur de prolongement bilineaire sur un maillage regulier 

ddfini par les formules : 

(avec h le pas de discretisation du maillage fin et H celui du maillage grossier) 
alors est un multiple de Toperateur « moyenne ponderfe » avec : 

o\X V repr6sente la valence de {j\k) 

En prenant un op6rateur d'injection classique, on perd : 

- Calcul des matrices rgdiiitefi P^HP sm les grilles grossiferes 
20 H r6sulte de la discretisation d'un problfeme variationnel et fait intervenir 

en chaque point (v+1) valeurs de la fonction inconnue k savoir la valeur au point 
en question et celles aux v plus proches voisins. 

Nous appellerons V(o) le voisinage du point O et des ses v plus proches 
voisins. 

25 Prenons pour op6rateur de prolongement P de la grille grossifere sur la 

grille fme (IV), tel qu'illustre en figure 18. 

Soit i, I'indice d'un point G^de la grille grossifere et k Tindice d'un point 
Pk de la grille fine alors les coefficients de la matrice P prendront les valeurs 
suivantes : 
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1 si Gi et E. sont confondus 
0.5 si Gj et F,^ sont voisins sur la grille fine 
0 sinon 

La formule g6nerale du produit des matrices permet d'ecrire pour 
B^P'HP : 



Pour que B^j soit non nul, il faut qu'il existe au moins un indice k^V(i) et 

un indice /eK(y)tels que 77^^/ '^0, i.e. que k et 1 soient voisins, tous les 

voisinages etant pris sur la grille fine. 
10 II est facile de voir que By ne pent etre non nul que si les points d'indices i 

et j sont voisins sur la grille grossifere. 

• Principe algorithmique simplifi6 (sur 2 grilles^ 

Au cours d'un cycle, on effectue les Stapes suivantes, en utilisant les 
grilles grossi&re 191 et fine 192 iUustrees en figure 19. 
15 i. Effectuer quelques it6rations de Gauss Seidel (par exemple) sur la 

grille fine 192 de pas h (en g6n6ral 2 ou 3) ; 

ii. Calculer le r6sidu sur la grille fine 192 ; 

iii. Restreindre ce r6sidu sur la grille grossiere 191 de pas H=2h , 
restriction se faisant par moyenne ponderee ; 

20 iv. Resoudre le systeme sur la grille grossiere pour obtenir une 

approximation de la correction ; 
v. Interpoler cette correction sur la grille fine 192 pour corriger la 

solution approch6e obtenue sur la grille fine 192. 
Si k la fin de cette 6tape, le r&idu sur la grille fine est trop grand, on 
25 recommence un autre cycle, en reprenant les operations au d6but de la 1^ 6tape. 
Pour r6soudre le systfeme d'^quations sur la grille grossifere, on peut de nouveau 
utiliser une m6thode k deux grilles. Nous utilisons dans ce cas une m^thode 
multigrilles. 
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• Le principe du multigrille g^ometrique : 

Le multigrille g^ometrique utlilise Tapproche d^crite ci-dessus, mais 
s' attache k ponderer les nceuds entre niveaux successifs par des poids tenant 
compte de la deformation g6om6trique du maillage. En effet, les poids utilises 
5 pr6c6demment permettent de reconstruire un maillage fin h partir du maillage 
regulier de niveau inferieur. 

Cependant, quand le maillage est deforme, ces poids ne permettent pas de 
conserver la structure des maillages inf6rieurs. Pour conserver la structure des 
maillages inferieurs, on propose de modifier la pond^ration utilisee sur les noeuds 
10 lors de la repercussion du d6placement d'un niveau k 1' autre, comme illustre en 
figure 20, sur laquelle on a repr6sent6 : 

201 : deformations des noeuds du maillage grossier ; 

- 202 : deformations des noeuds du maillage fin ; 

- 203 deformation du maillage fin : 

15 o 2031 : deformation normale, (en pointilles) ; 

o 2032 : deformation multigrille (en gras). 
Entre deux niveaux de hi6rarchie successifs, les noeuds du maillage fin 
peuvent Stre repr^sent^s par leur coordonn^es barycentriques par rapport au 
triangle de niveau grossier auxquels ils appartiennent. On distingue alors deux 

20 types de noeuds au niveau du maillage fin : les noeuds fils directs de noeuds du 
niveau superieur et les noeuds milieux d'arStes du niveau superieur. 

Les noeuds fils directs prennent directement la valeur de leur pfere. Pour 
Tautre type de noeuds, quatre noeuds peuvent potentiellement intervenir dans la 
combinaison lin^aire de la valeur du noeud : les quatre noeuds des deux triangles 

25 contenant I'ardte du niveau superieur. Si le noeud est sur I'arSte alors seuls les 
deux noeuds aux extremites de I'arSte interviennent, les poids barycentriques des 
deux autres noeuds des deux triangles contenant TarSte sont nuls. Si le noeud n'est 
pas sur r arete, les noeuds qui interviennent sont les trois noeuds du triangle du 
niveau superieur auquel appartient le noeud du niveau fin. 

30 La matrice de passage entre deux niveaux successifs est alors trfes creuse. 
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II est alors possible de d^finir la matrice de passage entre deux niveaux non 
consecutifs par: /f'/-* = if'Mi^'"^-2...i^'"*'^^-A, oCl //'/-lest la matrice de 
passage entre deux niveaux consecutifs. 
^ Co^mptements ; 

5 Une explication plus d6taill6e, et des propositions d*am61ioration de cette 

technique multigrille sont pr6sent6es en Annexe 4. 

^J2 Suivi de maiUage a - realisation de mosaiques dynamiques 

4'objet^ video 

• Suivi de maillages 

10 La technique d'estimation du mouvement pr6sente dans la section 

prec6dente permet d'estimer le mouvement entre deux images successives. Le 
suivi du maillage au cours du temps consiste alors ^ estimer le mouvement entre 
rimage t oil Ton dispose de la position du maillage suivi, et I'image t+1. 
L'utilisation d'une technique d' estimation multi-grille est alors primordiale dans 

IS cette phase, puisque le maillage sur I'image t est un maillage ddforme, et que 
r estimation classique hi6rarchique ^ base de maillages rSguliers pent tr^s 
rapidement d€crocher. 

L'algorithme de suivi propose est pr6sent6 sur la figure 28. 

L'estimation du mouvement se fait en deux temps. Tout d'abord entre 

20 rimage t et t+1, puis un raffinement est effectu^ entre I'image t+1 et Timage 
initiate de la sequence traitee. Les images de reference peuvent etre filtr6es afin de 
prendre de limiter le bruit, mais aussi de prendre en compte les variations 
temporelles de texture (cf. mosaiques dynamiques d^crites ci-apres). 

L' utilisation damages filtrfies est utiUs^e notanmient pour la creation de 

25 mosaiques d'objet vid6o oil il est pr6f6rable d'utiliser la texture de la mosal'que ^ 
rinstant t plutSt que la texture de I'image originale ^ I'instant t. La phase de 
raffinement de mouvement entre I'image initiale et I'image h, I'instant t+1 est 
r6aiis6e dans le but d'optimiser le rendu des images lors d'une compensation 
d'images de type 1 vers t comme utilise pour le schema de codage vxd&o propose, 

30 • Creation de mosaiques dynamiques d'objets videos 
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GrSce au suivi du maillage au cours du temps, et k 1' utilisation de masque 
support (des objets videos suivis, voire plus simplement de 1' image dans le cas 
d'une s6quence mono-objet), on peut cr6er une mosaique de Tobjet suivi. Cette 
mosaique concat^ne 1' information de texture observde au cours du temps, et 
5 permet ainsi de combler les zones de d6couvrement observ6es. 

Le principe de constmction de ces mosaiques est explicit^ sur la figure 29. 

Par rapport h des approches de reconstruction d'images mosaiques 
classique, la technique propos6e permet de g6rer des objets d6formables, et 
6voluant au cours du temps, tout en n'6tant pas limits par des contraintes usuelles 
10 (objets eloignes de la camera pour avoir Thypothese d'une profondeur relative 
faible, mouvement de camera limits h, des mouvements de type "pan and tilt",.,.). 
Ceci est realist grace h la substitution dans la technique de creation de mosaiques, 
de Toutil de compensation du mouvement global (mouvement affine, 
panoramique, homographique,...) par Toutil de compensation en mouvement par 
IS maillage hi^rarchique. 

La representation du mouvement hi^rarchique utilis6e et son lien 6troit 
avec une representation ondelette (cf. [Marquant-2000]), permet de pouvoir 
etendre le mouvement au del^ du support d'estimation. 

L'image mosaique cr^^e est mise a jour progressivement au cours du 
20 temps k partir des valeurs observees dans les images. On distingue la mise h jour 
pour les zones nouvelles de celle pour les zones deja presentes dans la mosaique : 

^/ V j l{x dx,y + dyyt) si Ton est dans une zone non initialis6e 

^ |M(x,y,/ - 1) + a[/(x,y,f ) - M{x,y,t - 1)] si Ton est dans une zone d6jk initialisfe 



25 Le paramfetre a permet de contr61er le filtrage effectu6 sur les variations 

temporelles de la mosaique. Une valeur de 0 correspond k une mosaique fixe. Une 
valeur de 1 correspond k un non filtrage des valeurs observees. Une valeur 
interm^diaire permet de r^aliser un filtrage de Kalman tempore! des valeurs 
observees. 

30 Ce filtrage peut Stre utile pour d6bmiter le signal vid6o ou bien diminuer 
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Tordre de grandeur des hautes frequences temporelles pr6sentes dans 
rinformation k coder (cf. codage de la mosalque dynamique par rintermddiaire 
d'une approche ondelettes 3D). 

Une fois cette analyse eiffectuee, les mosaiques sont ensuite compldtdes. 
5 Tout d'abord on propage du fiitur vers le pass6 les valeurs obtenues aux differents 
instants, en ne propageant que sur les sites n' ay ant pas encore de valeurs d6finies. 
Enfin, un padding est x6alis6 afin de completer les zones non-d6finies (zones pour 
lesquelles aucune observation n'a pu etre realisee), 

6.13 Aspects compUmentaires de Vinvention 
10 Comme deji mentionne, Tinvention conceme le procede de codage, le 

proced6 de d6codage et les signaux correspondants, mais egalement les aspects 
suivants : 

• dispositif de codage 

Un tel dispositif de codage confiprend des moyens de codage par ondelettes 
15 appUqu^ sur des images de difference, dites r^sidus, obtenues par comparaison 
entre une image de source et une image estimSe correspondante. 

• dispositif de d6codage 

Un tel dispositif de d6codage comprend avantageusement : 

• des moyens de d^codage du mouvement, en tenant compte d'au moins 
20 certains desdits r6sidus relatifs au mouvement, pour former des images 

de mouvement ; 

• des moyens de d6codage de la texture, en tenant compte d'au moins 
certains desdits r^sidus relatifs k la texture, pour former des images de 
texture ; 

25 • des moyens de synthase d'une sequence d'iniages d6codees, 

correspondant k ladite sequence d'images source, par projection 
desdites images de texture sur lesdites images de mouvement. 
serveur de donn^es 
Un tel serveur de donn^es, stockant et pouvant transmettre vers au moins 

30 un terminal au moins un signal repr6sentatif d'une sequence damages source et 
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obtenu par un mettant en oeuvre une decomposition mouvement/texture, 
produisant, pour au moins certaines desdites images source, des informations 
representatives du mouvement, dites images de mouvement, et des informations 
representatives de la texture, dites images de texture, et un codage par ondelettes, 
5 comprend des donn^es num^riques representatives d'un codage par ondelettes 
applique sur des images de difference, dites residus, obtenues par comparaison 
entre une image de source et une image estimee correspondante. 
® support de donnees 

Un tel support de donnees numerique, pouvant etre lu par un terminal, 
10 porte au moins un signal representatif d'une sequence d'images source et obtenu 
par un mettant en oeuvre une decomposition mouvement/texture, produisant, pour 
au moins certaines desdites images source, des informations representatives du 
mouvement, dites images de mouvement, et des informations representatives de la 
texture, dites images de texture, et un codage par ondelettes. II comprend des 
15 donnees numeriques representatives d'un codage par ondelettes applique sur des 
images de difference, dites residus, obtenues par comparaison entre une image de 
source et une image estimee correspondante. 

- pro gramme d'ordinateur de codage 

Un tel programme d'ordinateur comprend des instructions pour mettre en 
20 oeuvre un codage d'une sequence d'images source, mettant en oeuvre une 
decomposition mouvement/texture, produisant, pour au moins certaines desdites 
images source, des informations representatives du mouvement, dites images de 
mouvement, et des informations representatives de la texture, dites images de 
texture, et un codage par ondelettes. II comprend notanmnent des moyens de 
25 codage par ondelettes applique sur des images de difference, dites residus, 
obtenues par comparaison entre une image de source et une image estimee 
correspondante. 

- programme d'ordinateur de decodage 

Un tel programme d'ordinateur comprend des instractions pour mettre en 
30 oeuvre un decodage d'une sequence d'images source, codec par un codage mettant 
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en cjeuvre une decomposition mouvement/texture, produisant, pour au moins 
certaines desdites images source, des informations representatives du mouvement, 
dites images de mouvement, et des informations representatives de la texture, 
dites images de texture, et un codage par ondelettes. Ledit codage par ondelettes 
5 etant applique sur des images de difference, dites residus, obtenues par 
comparaison entre une image de source et une image estimee correspondante, il 
comprend : 

- des moyens de decodage du mouvement, en tenant compte d'au 
moins certains desdits residus relatifs au mouvement, pour former 

10 des images de mouvement ; 

- des moyens de decodage de la texture, en tenant compte d'au 
moins certains desdits residus relatifs k la texture, pour former des 
images de texture ; 

des moyens de synthase d'une sequence d'images decodees, correspondant 
15 k ladite sequence d'images source, par projection desdites images de texture sur 
lesdites images de mouvement. 
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ANNEXE 1 : FUtres utilise 

JL Filtre d'Antonini : 7/9 Filter from M. Antonini, M. Barlaud, P. 

Mathieu, and L Daubechies, "Image coding using wavelet transform", IEEE 

5 Transactions on Image Processing", Vol. pp. 205-220, 1992. 

AntoniniSynthesis = { -6.453888262893856e-02, 

-4.068941760955867e-02, 

4.180922732222124e-01, 

7.884856164056651e-01, 

10 4.180922732222124e-01, 

-4.068941760955867e-02, 

-6.453888262893856e-02 }; 

AntoniniAnalysis = { 3.782845550699535e-02, 

-2.384946501937986e-02, 

15 -1.106244044184226e-01, 

3.774028556126536e-01, 

8.526986790094022e-01 , 

3.774028556126537e-01, 

- 1 . 1062440441 84226e-01 , 

20 -2.3849465019379866-02, 

3.782845550699535e-02 }; 

2. Filtre 5/3 : Cohen Daubechies Feauveau bi orthogonal (2.2) 
Analyse= -^(l + z-*) + ^(z-' +z-^) + ^z-^ 

Synth6se=^(l + z-2)-^z-' 

25 3. Filtre 5/3 en version lifting : 
EtapeP=-J-(l + z-') 

EtapeU= -i(2 + l) 

Mise h ^helle sur pair : S=V2 
Mise k 6chelle sur impair : S = 
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Annexe 2 : Principe du lifting 



La transformation d'un signal par un banc de filtres pent se faire dans deux 
versions diff^rentes : soit une version convolutive, soit une version lifting. La 
version convolutive est la plus connue et la plus coQteuse en coflt de calcul et 
5 eireurs d'arrondis. Pour la transformation ondelette d'un signal ID s(t) par deux 
filtres passe-haut H et passe-bas L, la transform^e ondelette convolutive est la 
suivante : 



10 avec bf les basses frequences et hf les hautes frequences. 

Les basses et hautes frequences sont ensuite d6cimees par deux pour 
garder les mgmes nombres d' information que dans le signal initial. La figure 22 
montre la decomposition d'un signal X en basses et hautes frequences h I'aide de 
filtres passe-haut 221 et passe-bas 222, puis la decimation par deux 223, 224. 

15 La deuxieme moitie de la figure montre la reconstruction du signal : 

expansion des signaux bas 225 et haut 226 par deux (en intercalant des zeros entre 
chaque valeur) et filtrage avec les filtres de synthese 227 et 228, puis 
recombinaison 229. 



20 frequences comme la version convolutive, mais son schema a I'avantage de gerer 
les erreurs d'arrondis et d'avoir un coflt de calcul moindre. En lifting (voir 
figure 21), le signal k transformer est d'abord separe en deux par Toperateur 
SPLIT 211 pour obtenir Xeven et Xodd. 



25 les impairs. 

Ensuite, Toperateur P 212 predit le signal impair par le signal pair : 
Xodd = Xeven, la px6diction Xodd est otee k Xodd, le signal resultant est la 
composante haute frequence du signal. Le signal paire est ensuite mis k jour par 
I'operateur U 213. le signal resultant est la composante basse frequence du signal. 
30 Une etape de lifiting est constituee de deux filtrages P et U. Une transformee 




La version lifting decompose le signal en composantes basses et hautes 



En fait, Xeven contient les echantillons du signal d'indice pairs et Xodd 
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ondelette est une succession d'6tapes de lifting appliqu6e k chaque fois sur le 
signal mis ^joiir. 

L'inversion du sch6ma lifting est simple et rapide : il suffit d'inverser les 
additions par des soustractions, les op6iateurs P et U ne changent pas. La version 
5 lifting d'un filtre convolutif peut-Stre calculfe par division euclidienne des filtres 
convolutifs, mais des filtres de lifting peuvent 8tre cr66s sans avoir d'6quivalent 
en filtre convolutif. Dans notre codeur, les seuls filtres utilises en lifting sont des 
filtres d6jh existants en convolutif, la construction du schema lifting k partir de 
filtres convolutifs existants est la suivante : 

10 On considere I'analyse et la synthase d'un signal X par une transformee 

ondelette selon la figure 22. Les basses frequences Bf sont obtenues par filtrage 
du signal X avec le filtre passe-bas h , puis decimation du signal filtr6, les hautes 
frequences Hf par filtrage avec g et decimation. La reconstruction du signal est 
effectuee par filtrage avec les filtres g et h, on obtient le signal reconstruit Xr. 

15 Nous allons d^velopper plus explicitement le calcul des basses frequences 

Bf a Taidedu filtre h: 

Bf^ =Xo*#0+^l +^2*^2+^3*^3+ 
Bf, =Xj +^2 +^3 *^2 +^4 + ■- 

Sfz =X2*#o+^3*^l +^4*^2+^5*^3+..- 
Bf, « ^3 *^0 + ^4 *^l + ^5 *^2 + ^6 *^3 + ... 

Apres filtrage du signal X par le passe-bas, nous decimons les coefficients 
transformes, les coefficients restant sont : 

Bf2 =X2*^o+^3*^l +^4*^2+^5*^3+... 

On remarque Ton pent reecrire le calcul des coefficients basses frequences 
sous une forme polyphase, on separe les coefficients d*indice pair et impair: 
Bf = h^x^ + h^x^ , xe et xo les coefficients du signal d'indice pair et impair. 

De la mSme mani^re, on obtient les hautes firequences, ainsi que le signal 
25 reconstruit. Les equations de Tanalyse et de la synthase sont alors: 
- Analyse 
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- Synthfese 
Xre=he(Bf)+ge(Hf) 
Xro=ho(Bf)+go(Hf) 
On peut ainsi d6finir deux matrices polyphases duales pour Tanalyse et la 
syntihifese du signal P et P: 





et P = 


K Sc 


Se ^o. 







La figure 23 illustre la transform^e ondelette conespondant k celle d^finie 
pr6c6deinment avec les matrices polyphases. On montre que Ton peut factoriser 



10 P sous la forme; 

Ik 0 



0 l/K 



1 « 
0 1 



1 

-P 



La figiure 17 montre un 6tage de lifting et un 6tage de lifting dual. La 
transform6e ondelette est une succession de ces etages. La transfonn6e inverse du 
lifting s'obtient facilement en remplagant les additions par des soustractions. 
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Annexe 3 : A lgorithme 1: projection de Timage k sur IMmage i 

Entries de 1 'algorithme: 

Mask:(i) = masque de d6finition de 1 'image i, indique quels pixels 
5 de 1 'image i sont d^finis 

Mask(k) = masque de definition de 1 'image k 
mi = positions du maillage de 1 'image i 
mk = positions du maillage de 1 'image k 
Sorties de 1' algorithme : 
10 If = 1 'image k reconstniire, 1 'image k projet6e sur 1 'image i 

MaskPrediction = masque de definition de 1 'image k reconstruire t 

Pour tout pixel (xj,r,yj,r) de 

si(xj^,yj>) defini dans Mask(i) 
15 d6terminer t le triangle de mi contenant (xj,r,yj^) ; 

calculer les poids wi,ti, W2,ti, W3,ti de (xj,r,yj,r) associ6s aux 
nceuds de t ; 

determiner la nouvelle position de (xj^,yj^) dans mfcpar: 

Xj,mlr= Wi,ti* Xi,mk+ W2,ti* X2.mk+ Wa.ti* X3,mk Oi Xi,nik, X2,mk, 

20 X3,mk sont les positions en x de nceuds de t ; 

yj,mk= Wi,ti* yi,mk+ W2,ti* y2,mk+ W3,ti* y3.mk; 

si (Xj,nik,yj.mk) d6fini dans Mask(k) 

calculer luminance de (xj,mfc,yj.mk) par 
interpolation bilineaire ; 
25 MaskPrediction(xj^,yj>) = vrai ; 

finsi 

sinon MaskPrediction(xj,r,yj^) = faux ; 

finsi 

30 sinon MaskPrediction(xj,r,yj,r) =faux; 

finpour 



wo 2004/086769 



58 



PCT/FR2004/000689 



Annexe 4 : Estimation multi-grUle 

1. Principe g6n6ral 

Lors de la phase de suivi du maillage au cours du temps, apparait le 
5 probleme que les maillages sur lesquels est estime le mouvement, ne sont plus des 
maillages r^guliers hi^rarchiques. L*estimation hi6rarchique du mouvement 
devient alors non ais6e. Dans [Marquant-2000], une technique dtait ainsi propos6e 
pour pouvoir estimer le mouvement avec des maillages hi6rarchiques, en 
propageant Testimation du mouvement effectu6 sur des triangles r6guliers d'un 

10 niveau de hi6rarchie donn6 sur le niveau plus fin suivant (cf. figure 24). Cette 
approche peut alors devenir rapidement sous-optimale dans le cas de d6formations 
prononc^es du maillage, oil le mouvement estimfi sur de grands triangles peut etre 
assez different du mouvement reel de la structure deformee (le support 
d' estimation du grand triangle est en effet different du support des mailles sensees 

1 5 constitu6es ce triangle) . 

Afin de resoudre ce probleme, une technique de minimisation de type 
multi-grilles a alors 6t6 mise en place. Cette technique repose sur la recherche 
d'une deformation du maillage d6finie par I'intermediaire d'un jeu de param^tres 
r6duit. Pour se faire, on tire profit de la structure hi6rarchique du maillage. 

20 On note le d6placement associ6 au noeud indic6 i, au niveau de 

hierarchic de maillage L Un jeu r6duit de param^tres pour obtenir un champ de 

deformation au niveau hierarchique 1, peut alors Stre obtenu k partir du champ de 

deformation du niveau 1-1 : le d6placement est r^percute sur les noeuds 

indic6 i du niveau 1 comme suit (cf. egalement la figure 25 pour le cas d'un 

25 maillage quadrangulaire) : 

dpj" ^ si le noeud i est le fils direct du noeud j 

dpj'' ^ si le noeud i est situ6 au milieu d' un arc au contact du noeud j 

Cette relation entre les deplacements des niveaux 1 et 1-1 peut alors s'6crire 
sous forme matricielle : [rf/?'] = if/_i[dp^r^], et de fagon g6n6rale, en appliquant 

success! vement cette formule : = avec 
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I'k /-I /,2 /-A . Si Ton utilise la deformation optimale de ce type 

minimisant rerreur de prediction, on pent alors montrer que le systfeme d^finissant 

les deplacements optimaux se transforme de la formule gen6rale au niveau / : 
a\Mp\]^B' enlesystfeme: ('/f/:,^'j/j.,){A4>^-*] = ('if/_,^'). 

5 Cette estimation multi-grille est alors utilis6e dans le schema d'estimation 

hi6rarchique du mouvement en estimant le mouvement non plus sur une maillage 
de moindre finesse, mais ^ Taide des ddplacements des noeuds de ces maillages 
plus grossiers. 

2. Multi>grille g6ometrique 
10 Dans Tapproche pr^sent^e pr6c6demment, on pent remarquer que les 

pond6rations entre les noeuds de niveaux de hierarchies successives (1 et 0.5) sont 
quelques peu empiriques. En fait, ces poids sont les poids k appliquer sur un 
maillage rdgulier ajRn de conserver la structure reguliere du maillage de niveau 
inferieur. Toutefois, lorsque le maillage est d6forme, Tutilisation de cette 
15 ponderation ne garantit pas de conserver la structure des maillages. inf6rieurs. 
Ainsi sur la figure 26, dans le cas d'un zoom global, la structure du maillage n'est 
plus conservee (la deformation appliquee sur le maillage de niveau inferieur ne 
correspond pas h, un zoom global). 

Afin de remedier ^ ce probl^me, nous proposons done de modifier la 
20 ponderation utilisee sur les noeuds lors de la repercussion du deplacement d'un 
niveau ^ Tautre. En observant qu'entre deux niveaux de hierarchic de maillage 
successifs, les noeuds du maillage fin peuvent s'exprimer comme une combinaison 
lineaire des noeuds du niveau hierarchique superieur (utilisation d'une 
representation barycentrique pour chaque noeud par rapport au triangle de niveau 
grossier contenant ce noeud), on va alors utiliser cette propriete pour la repercution 
du deplacement des noeuds. 

Au niveau du maillage fin, on pent distinguer deux types de noeuds ; les 
noeuds fils directs de noeuds du niveau superieur, et les noeuds fils d'une arete du 
niveau superieur. Pour le premier type de noeud, on a alors une repercussion 
durecte, et un seul noeud intervient alors. Pour le deuxieme type de noeud, dans la 
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formule de pond6ration, potentiellement quatre noeuds peuvent intervenir (les 
noeuds des deux triangles de part et d' autre de Tarete). On utilise alors les deux 
noeuds extr6mit6s de TarSte ainsi que le noeud suppl6mentaire du triangle du 
niveau sup6rieur contenant le nceud. Dans le cas, ou le noeud fils est situ6 sur 
5 Tarrete, uniquement les noeuds extr6init6s de Tarfite sont utilises (la coordonn€e 
barycentrique sur les autres noeuds 6tant nuUe). La matrice r6sultante Hj^^ est 

toujours alors trfes creuse (pas plus de 3 valeurs non nulle par ligne). Afin 
d'obtenir la matrice de passage entre des niveaux de hierarchies non cons^cutifs, 
on utilise alors la formule de composition pr6c6dente : =- Hj_^ h\z\ ...h\z^^^ . 

10 3. Robustification de ralgorithme d' estimation du mouvement 

L'algorithme d'estimation du mouvement repose sur une minimisation 
diff^rentielle du mouvement, et peut Stre rapidement perturbe p£ir le bruit de 
calcul. Aussi est-il necessaire de robustifier Talgorithme d'estimation, notamment 
au niveau de la resolution du systfeme d' Equation ^ r^soudre pour trouver les 

15 increments de d6placements {a^P^]. La solution propos6e dans [Lechat-1999] est 

alors d'utiliser une technique de Levenberg-Marquardt afin de reconditionner le 
systfeme linSaire a r6soudre. Cette technique consiste ^ augmenter dans le systfeme 
AX^B , la diagonale de la matrice A tant que Ton n'observe pas de diminution 
de la fonctionnelle & minimiser. Cette augmentation de la diagonale se fait sur 

20 toutes les lignes de la matrice, et a pour consequence de freiner alors le 
deplacement de tous les noeuds et non uniquement des noeuds k problfeme. 

Plusieurs modifications ont ete alors test^es afin de limiter ce phenomene, 
et de limiter d' autres derives, en proposant des augmentations des termes 
diagonaux de la matrice A de fagon limite et bien adaptee : 

25 3.1 Reconditionnement pour limiter le deplacement des fiosuds 

De par I'utilisation d'une technique de minimisation differentielle, les 
increments de deplacements trouves doivent 8tre lindte (typiquement de Tordre de 
1 pixel a la resolution traitee). Aussi lors de la resolution du systfeme AX=B, un 
contrSle est effectue afin de s' assurer que toutes les composantes sont bien 

30 inferieures au deplacement maximal toiere. Dans le cas contraire, une 
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augmentation du terme diagonal de la matrice A rattach6 k la ligne dudit 
coefficient est realise. Cette augmentation est r6alis6e de fagon similaire k la 
technique de Levenberg Marquard : ^V/-(i+a)^/, et ceci autant de fois qu*il soit 
n6cessaire afin de respecter la contrainte. 
5 3.2 Reconditionnement par rapport au problime d'ouverture 

Dans le cadre de Testimation du mouvement, le problfeme d'ouverture est 
un probldme fr6quemment rencontr6. Ce probleme est lie au fait que de par 
Torientation privilegie du gradient de texture, Tinformation de mouvement locale 
ne peut etre d^finie de fa§on fiable que dans une seule direction (i.e. la direction 

10 du gradient). Dans le cas de Testimation sur un maillage, ce probleme est limits 
(car rinfluence d'un nceud porte sur les pixels contenus dans les triangles au 
contact de ce noeud), toutefois il apparait dans des zones ayant une orientation de 
texture marqu6e (comme par exemple au niveau de frontieres entre deux zones 
faiblement textur6es oh Von peut alors observer un glissement des maiUes le long 

IS des contours). 

Ce ph6nom^ne peut s'expliquer plus clairement au niveau de la resolution 
du systfeme A.X=B. De par sa nature, ce syst^me n'est pas a diagonale dominante, 
et peut avoir un grand nombre de solutions « admissibles ». Ainsi la technique du 
gradient conjugu6 peut trouver des solutions telles que ||^ soit faible. Or, 

20 ceci peut engendrer un grand nombre de solution si la matrice A possede des 
valeurs propres faibles (comme cela peut 8tre le cas pour le probl&me classique de 
Touverture). 

L'approche propos^e consiste alors, pour chaque noeud, k identifier la 

sensibilit6 de ces noeuds par rapport k un bruit sur le vecteur de d^placement 
25 optimal. On peut ainsi observer que la norme du bruit sur ^ JSr-5|| li6 k un bruit 

de d^placement sur (fixi^dyiX peut s*exprimer conune une forme quadratique (en 
ne consid6rant que ce bruit) : Aa^.dxt^+lAa.yi.dxi.dyi'i-Ayi.yi.dyi^ . Le terme Ac^ 
correspondant k la norme Li au carre de la ligne de coefficients associ^e k 
I'inconnu d)a (idem pour le terme Ayy), le terme A,> correspondant au produit 
30 scalaire entre les lignes de la matrice A rattach^es aux inconnues dxi tt dyi. Une 
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rotation de repere peut alors etre effectu6e sur (d)a,dyi) afin d'avoir une forme 
quadratique de la forme ^ et Az repr6sentent alors la 

sensibility du systeme pour certaines directions de d^placement du nceud 
consid6r6 (une valeur faible indique que le systfeme est mal conditionne sur la 
5 variable associee, une valeur forte indique un bon conditionnement). Afin de 
robustifier Talgorithme, on procede alors, suite k un changement de variable sur le 
systdme (rotation pour chaque noeud), a une augmentation de la diagonale la plus 
faible sur chaque noeud afin d'avoir des valeurs de ^ et Ax de meme ordre de 
grandeur. 

10 3-3 Reconditionnement par rapport a un gradient minimal de texture 

Une autre source de mauvais conditionnement de la matrice A, porte sur la 
presence de zones oil le gradient de Timage est faible. Pour cela, on introduit alors 
la notion de gradient minimal moyen. En regardant Texpression des coefficients 
de la matrice A, on peut observer que les termes diagonaux s'exprinient sous la 
15 forme d'une sonmie pond6r€e de gradients. En calculant alors un syst^^me 
normalise y^riorm , oil Ton omet dans la formule les termes de gradients d' images. Le 
reconditionnement est alors effectu6 en imposant que Ton ait : Aj>VImm\Am\n\ . 

Exp6rimentalement, on peut observer qu'une valeur de 10 pour ce terme 
de gradient minimal donne en general de bons r6sultats n'engendrant pas un 
20 lissage excessif (cet effet de lissage est du h, un lissage par rapport a un 
mouvement global calculi sur une hi6rarchie de maillage plus grossifere). 

3.4 Reconditionnement par rapport au support d' estimation 

L'introduction d*un support d'estimation Q dans la phase d'estimation de 
mouvement induit 6galement des probl^mes de conditionnement pour le systeme 
25 lineaire & rdsoudre. Par exemple, sur la figure 27, on peut observer que le noeud 
N\ est un noeud qui peut gtre mal conditionn6 car son influence sur les points au 
sein du triangle NiNzNi est limlte (et done un grand d^placement peut 8tre tol6re 
sur ce noeud). Afin alors de limiter ce problfeme, on introduit une notion de lissage 
sur les noeuds. Toutefois, Tintroduction d'un lissage peut limiter la qualit6 de 
Testimateur de mouvement. Aussi le lissage sur les noeuds n'est-il effectu^ que 
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sur les noeuds ayant des supports d'estimation non complet. 

On ajoute alors entre deux noeuds voisins i et j, une energie de lissage de la 



systfemes d'6quatioiis « normalises » (i.e. sans Tutilisation du terme de gradient de 
5 rimage) respectivement avec un masque complet, et avec le masque Q . est le 

terme de pond6ration permettant de contrdler la force du lissage ; un bon ordre de 
grandeur pour ce terme est de prendre la valeur du gradient minimal de texture 
utilise pr6cedeinment. 



10 Stre effectuees sur les differents systemes lineaires h resoudre. L' utilisation de 
ponderation utilisant les matrices normalis6es, permet de linriiter le reglage des 
param^tres introduit en prenant en compte automatiquement les problfemes de 
changement de resolution, et de taille de triangle variable. Enfin, le sch6ma 
propose par Levenberg-Marquardt est utilise suite k ces divers reconditionnements 

15 uniquement si Ton n'observe pas xme diminution de la fonctionnelle h minimiser. 



forme : /jl 




Awmijuu et AtontuQ represeutcut les 



n est k noter que ces differentes operations de reconditionnement peuvent 
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REVENDICATIONS 

1. Proc6d6 de codage d'une sequence d'images source, mettant en oeuvre une 
decomposition mouvement/texture, produisant, pour au moins certaines desdites 

5 images source, des informations representatives du mouvement, dites images de 
mouvement, et des informations representatives de la texture, dites images de 
texture, et un codage par ondelettes, 
caracterise en ce qu'il comprend les Stapes suivantes : 

- estimation du mouvement, de fafon k obtenir lesdites images de 
10 mouvement ; 

- projection de chacune desdites images source sur au moins une grille 
de reference, de fa9on k obtenir lesdites images de texture, sur 
lesquelles Teffet du mouvement a 6t6 annul6 ; 

- comparaison entre une image de mouvement et une image estim6e 
15 correspondante, de fa^on h obtenir une image de difference de 

mouvement, dite residu de mouvement ; 

- comparaison entre une image de texture et une image estimee 
correspondante, de fa9on h obtenir une image de difference de texture ; 

- codage ind^pendant, par ondelettes, desdits residus de mouvement et 
20 desdits residus de texture. 

2. Procede de codage selon la revendication 1, caracterise en ce que ladite 
comparaison met en oeuvre une difference avec une image interpoiee k partir d'au 
moins la premifere et/ou de la demifere image de ladite sequence. 

3. Procede de codage selon Tune quelconque des revendications 1 et 2, 
25 caracterise en ce qu*on effectue un codage temporel de ladite texture, redressee 

par ledit mouvement prealablement code selon Taxe temporel, k Taide d'un 
codage par ondelettes. 

4. Procede de codage selon Tune quelconque des revendications 1 & 3, 
caracterise en ce qu'il comprend un codage de la texture comprenant un codage 

30 temporel par ondelettes suivi d'un codage spatial par ondelettes. 
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5. Proc6d6 de codage selon I'une quelconque des revendications 1^4, 
caract6ris6 en ce qu'il comprend un codage du mouvement prenant en compte un 
maUlage. 

6. Proc6de selon la revendication 5, caract6ris6 en ce que ledit maillage est 
5 un maillage hi6rarchique. 

7. Proc6d6 de codage selon Tune quelconque des revendications 1^6, 
caract€ris6 en ce qu'il comprend un codage du mouvement comprenant un codage 
temporel par ondelettes suivi d'un codage spatial par ondelettes. 

8. Procede de codage selon Tune quelconque des revendications 1 & 7, 
10 caract6ris€ en ce que lesdites images source sont regroupees par blocs d'images 

comprenant un nombre variable (N) d' images source. 

9. Procede de codage selon la revendication 8, caracteris6 en ce que deux 
blocs d'images successifs compiennent au moins une image commune. 

10. Procede de codage selon la revendication 9, caract6ris6 en ce que la 
15 prendfere image d'un bloc d'images n'est pas cod^e, celle-ci 6tant identique a la 

demi^re image du bloc d'images precedent 

11. Proc6d6 de codage selon Tune quelconque des revendications 1 k 10, 
caract6ris6 en ce que, dans chacun desdits blocs d'images, on estime le 
mouvement de toutes les images d'un bloc d'images k partir de la premiere image 

20 dudit bloc. 

12. Procdde de codage selon la revendication 11, caract6ris6 en ce que ladite 
etape de projection utilise deux grilles de reference repr€sentant respectivement la 
premiere et la demiere images du bloc consider^. 

13. Procedd de codage selon la revendication 12, caract6ris6 en ce que, pour 
25 un bloc de N images, les images de 1 k (N+l)/2 sont plaqu6es sur la grille de 

r6f(6rence reprdsentant la premifere image et les images de (N+l)/2 +1 ^ N sont 
plaqu6es sur la griUe de r6f6rence representant la demiere image. 

14. Proc6d6 de codage selon Tune quelconque des revendications 1 k 13, 
caract6ris6 en ce qu'il comprend un codage du mouvement mettant en oeuvre une 

30 estimation de mouvement multi-r6solution, selon laquelle le mouvement est 
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estime sur au moins deux niveaux de resolution d'image. 

15. Proced6 de codage selon les revendications 6 et 14, caract6risd en ce que 
r estimation de mouvement est effectu6e sur au moins deux niveaux dudit 
maillage hierarchique. 
5 16. Proc6d6 de codage selon Tune quelconque des revendications 1 & IS, 
caract6ris6 en ce qu'il comprend une 6tape de projection d'une image sur au 
moins une grille de r6f6rence, correspondant k une grille d'6chantillonnage definie 
par la position des noeuds d'un maillage dans une image, de fagon h obtenir un 
masque de texture. 

10 17. Procede de codage selon la revendication 16, caract6rise en ce qu'on met 
en oeuvre une approche multi-grille, selon laquelle on associe respectivement une 
grille de r6f6rence specifique a au moins deux niveaux de hierarchic d'un maillage 
hierarchique. 

18. Procdd6 de codage selon la revendication 17, caract6ris6 en ce qu'on met 
15 en oeuvre une pond6ration des nceuds de maillage entre lesdits niveaux de 

hi6rarchie, par des poids repr6sentatif de la deformation g6om6trique. 

19. Proc6d6 de codage selon Tune quelconque des revendications 16 k 18, 
caracterise en ce qu'il comprend une 6tape de detection d'au moins une zone de 
support d'image restant indefinie aprfes ladite projection d*une image, du fait de 

20 Tutilisation d'une grille de reference correspondant h une autre image, et une 
6tape de remplissage (« padding ») de la ou desdites zones de support d'image 
indefinies. 

20. Procede de codage selon la revendication 19, caract6ris6 en ce que ladite 
etape de remplissage repose sur une approche de t^^pe analyse-synth^se, I'image h 

25 completer etant analys^e, puis synthetis^e, pour obtenir par comparaison un 
r6sidu. 

21. Procede de codage selon la revendication 20, caracterise en ce que ladite 
analyse-synthfese est reiteree au moins une fois, sur le residu obtenu k Titeration 
precedente, 

30 22. Procede de codage selon Tune quelconque des revendications 18 k 21, 
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caracterise en ce qu'il comprend une 6tape de remplissage spatial pour au moins 
une image suivie d'une etape de remplissage temporel, par prediction. 
23. Proc6d6 de codage selon la revendication 22, caract6ris6 en ce que ladite 
6tape de remplissage est assur6e par une interpolation. 
5 24. Proc6d6 de codage selon Tune quelconque des revendications 1 k 23, 
caracterise en ce qu'on applique une antisymetrie aux coefficients d'ondelettes 
correspondant k un bord d*une image, de fagon k simuler un signal k support de 
longueur infinie. 

25. Procdde de codage selon Tune quelconque des revendications 1 k 24, 
10 caracteris6 en ce que les donn^es codecs sont reparties en au moins deux couches, 

une couche basse comprenant des donn6es permettant de reconstruire une image 
de qualite grossiere et une couche haute permettant d'affiner la qualite de ladite 
image grossiere. 

26. Proc6d6 de codage selon la revendication 25, caract6rise en ce que ladite 
15 couche basse comprend un flux de mouvement de bas niveau, comprenant des 

donn^es de mouvement de la demi^re image dudit bloc d 'images, et un flux de 
texture de bas niveau, comprenant des donn6es de texture de la premifere et de la 
demi&re images dudit bloc d'images. 

27. Proc6d6 de codage selon Tune quelconque des revendications 25 et 26, 
20 caracterise en ce que ladite couche haute comprend un flux de mouvement de haut 

niveau et un flux de texture de haut niveau, correspondant au codage desdits 
r6sidus. 

28. Procede de codage selon Tune quelconque des revendications 1 k 27, 
caract6ris6 en ce qu'il comprend les 6tapes suivantes : 

25 - selection d'un groupe d'images source ; 

- analyse du mouvement dans ledit groupe d'images source, produisant 
lesdites images de mouvement ; 

- analyse de la texture des images source dudit groupe, ladite texture etant 
plaquee sur les images de mouvement correspondantes, produisant lesdites 

30 images de texture ; 
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- prediction d'au moins certaines des images de texture dudit groupe 
damages source, produisant lesdites images de texture prddite ; 

- determination de r^sidus de texture, correspondant h la difference entre 
une image de texture et une image de texture prddite ; 

5 - prediction d*au moins certaines des images de mouvement dudit groupe 

d'images mouvement, produisant lesdites images de mouvement pr^dite ; 

- determination de r^sidus de mouvement, correspondant k la difference 
entre une image de mouvement et une image de mouvement predite ; 

- application d'un codage par ondelettes sur lesdits residus de texture et sur 
10 lesdits residus de mouvement. 

29. Signal representatif d'une sequence d'images source et obtenu par un 
procede de codage selon Tune quelconque des revendications 1 k 28, et mettant en 
oeuvre une decomposition mouvement/texture, produisant, pour au moins 
certaines desdites images source, des informations representatives du mouvement, 

15 dites images de mouvement, et des informations representatives de la texture, 
dites images de texture, et un codage par ondelettes, 

caracterise en ce qu'il comprend des premieres donnees numeriques 
representatives d*un codage par ondelettes applique sur des images de difference 
de mouvement, dites residus de mouvement, obtenues par comparaison entre une 
image de mouvement et une image estimee correspondante, 

et des secondes donnees numeriques representatives d'un codage par ondelettes 
applique sur des images de difference de texture, dites residus de texture, obtenues 
par comparaison entre une image de texture et une image estimee correspondante, 
sur lesquelles Teffet du mouvement a ete annuie, 

lesdites premieres donnees etant codees independamment desdites secondes 
donnees. 

30. Signal selon la revendication 29, caracterise en ce qu'il est constitue d'au 
moins deux couches, une couche basse comprenant des donnees permettant de 
reconstruire une image de qualite grossiere et une couche haute permettant 
d'affiner la qualite de ladite image grossifere. 
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31. Signal selon la revendication 30, caracterise en ce que ladite couche basse 
comprend successivement un flux de base, comprenant des donn^es 
d' initialisation, un premier flux representatif du mouvement et un premier flux 
reprdsentatif de la texture, et en ce que ladite couche haute comprend 

5 successivement un second flux representatif du mouvement. et un second flux 
repr6sentatif de la texture, lesdits seconds flux correspondant au codage desdits 
residus. 

32. Signal selon Tune quelconque des revendications 29 31, caracterise en ce 
qu'il comprend trois champs pour decrire un objet, representatif s respectivement 

10 de son mouvement, de sa texture et de sa forme. 

33. Proc6d6 de decodage d'une sequence d'images source, codec par un 
codage mettant en oeuvre une decomposition mouvement/texture, produisant, pour 
au moins certaines desdites images source, des informations representatives du 
mouvement, dites images de mouvement, et des informations representatives de la 

15 texture, dites images de texture, et un codage par ondelettes, 

caracterise en ce que, ledit codage par ondelettes etant applique sur des images de 
difference, dites residus, obtenues par comparaison entre une image de source et 
une image estimee correspondante, il comprend les etapes suivantes : 

- decodage du mouvement, en tenant compte d'au moins certains 
20 desdits residus relatifs au mouvement, pour former des images de 

mouvement ; 

- decodage de la texture, en tenant compte d'au moins certains 
desdits residus relatifs h, la texture, pour former des images de 
texture ; 

25 - synthfese d*une sequence d'images decodees, correspondant k ladite 

sequence d'images source, par projection desdites images de 
texture sur lesdites images de mouvement. 

34. Procede de decodage selon la revendication 33, caracterise en ce qu'il 
comprend une etape de mesure de la qualite de ladite sequence d'images 

30 decodees, par analyse de la distorsion entre les images de texture originales et les 
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images de texture d6cod6es. 

35. Proc6de de ddcodage selon Tune quelconque des revendications 33 et 34, 
caract6ris6 en ce que ladite dtape de d6codage du mouveraent comprend les 6tapes 
suivantes : 

5 - generation d'un maillage hi6rarchique sur la premifere image ; 

- d6codage d' informations de mouvement associ^es h la demifere 
image, pour determiner un maillage associe k ladite derni^re 
image ; 

- interpolation des images de mouvement interm6diaires. 

10 36. Proc6d6 de d^codage selon la revendication 35, caracterisd en ce qu'il 
comprend ensuite une 6tape de d^codage desdits residus, comprenant une 
transformation par ondelettes inverse de celle appliqu6e au codage, et une 6tape 
d' addition desdits r6sidus auxdites images de mouvement interm6diaires 
interpol6es. 

15 37. Proc6d6 de d6codage selon Tune quelconque des revendications 33 k 36, 
caract6rise en ce que ladite etape de d6codage de la texture comprend les Stapes 
suivantes : 

- generation d'une texture pour la premiere image ; 

- decodage d'informations de texture associ^es a la demifere image, 
20 pour determiner une texture associ6e k ladite demiere image ; 

- interpolation des images de texture interm6diaires. 

38. Proc6d6 de d6codage selon la revendication 37, caract6ris6 en ce que, pour 
au moins certains desdits blocs d'images, dits blocs « inter », T^tape de 
generation d'une texture pour la premifere image prend en compte la derniere 

25 image du bloc d'images precedents. 

39. Precede de decodage selon Tune quelconque des revendications 37 et 38, 
caracterise en ce qu'il comprend ensuite une etape de decodage desdits residus, 
comprenant une transformation par ondelettes inverse de celle appliquee au 
codage, et une etape d' addition desdits residus auxdites images de texture 

30 intermediaires interpoiees. 
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40. Proc6de de decodage selon Tune quelconque des revendications 33 h 39, 
caract€rise en ce qu'il comprend une 6tape de gestion des retoumements gen6r6s 
par ladite estimation du mouvement 

41. Proc^d6 de decodage selon Tune quelconque des revendications 33 h, 40, 
S caracterise en ce qu'il comprend une etape d'arrSt du traitement desdits r6sidus, 

lorsqu'un niveau de quality et/ou une quantity de traitements k effectuer est atteint. 

42. Dispositif de codage d'une sequence d'images source, mettant en oeuvre 
une decomposition mouvement/texture, produisant, pour au moins certaines 
desdites images source, des informations representatives du mouvement, dites 

10 images de mouvement, et des informations representatives de la texture, dites 
images de texture, et un codage par ondelettes, 

caracterise en ce qu'il comprend des moyens de codage par ondelettes applique 
sur des images de difference, dites residus, obtenues par comparaison entre une 
image de source et une image estimee correspondante. 

IS 43. Dispositif de decodage d'une sequence d'images source, codee par un 
codage mettant en oeuvre une decomposition mouvement/texture, produisant, pour 
au moins certaines desdites images source, des informations representatives du 
mouvement, dites images de mouvement, et des informations representatives de la 
texture, dites images de texture, et un codage par ondelettes, 

20 caracterise en ce que, ledit codage par ondelettes etant applique sur des images de 
difference, dites residus, obtenues par comparaison entre une image de source et 
une image estimee correspondante, il comprend : 

- des moyens de decodage du mouvement, en tenant compte d'au 
moins certains desdits residus relatifs au mouvement, pour former 

25 des images de mouvement ; 

- des moyens de decodage de la texture, en tenant compte d'au 
moins certains desdits residus relatifs k la texture, pour former des 
images de texture ; 

- des moyens de synthese d'une sequence d'images decodees, 
30 correspondant k ladite sequence d'images source, par projection 
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desdites images de texture sur lesdites images de mouvement. 
44. Serveur de domi^es caract6ris6 en ce qu'il comprend des moyens pour 
mettre en oeuvre le proced6 de codage selon Tune quelconque des revendications 1 
k2S. 

5 45. Support de donn^es hum€rique pouvant Stre lu par un terminal, caract^risd 
en ce qu'il porte au moins un signal selon Tune quelconque des revendications 29 
k 32, obtenu k Taide d'un procede de codage selon Tune quelconque des 
revendications 1 k28. 

46. Programme d'ordinateur, caract^rise en ce qu'il comprend des instructions 
10 pour mettre en oeuvre un codage d'une sequence d'images source, mettant en 

oeuvre une decomposition mouvement/texture, produisant, pour au moins 
certaines desdites images source, des informations representatives du mouvement, 
dites images de mouvement, et des informations representatives de la texture, 
dites images de texture, et un codage par ondelettes, 
15 caract6ris£ en ce qu'il comprend des instructions pour effectuer : 

- une estimation du mouvement, de fa9on k obtenir lesdites images de 
mouvement ; 

- une projection de chacune desdites images source sur au moins une 
grille de reference, de fagon k obtenir lesdites images de texture, sur 

20 lesquelles I'effet du mouvement a ete annul6 ; 

- une comparaison entre une image de mouvement et une image estimee 
correspondante, de fa^on k obtenir une image de difference de 
mouvement, dite r6sidu de mouvement ; 

- une comparaison entre une image de texture et une image estimee 
25 correspondante, de fa9on k obtenir une image de difference de texture ; 

- codage ind6pendant, par ondelettes, desdits r^sidus de mouvement et 
desdits r6sidus de texture. 

47. Programme d'ordinateur, caracterisfi en ce qu'il comprend des instructions 
pour mettre en oeuvre un d6codage d'une sequence d'images source, cod6e par un 

30 codage mettant en oeuvre une decomposition mouvement/texture, produisant, pour 
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au moins certaines desdites images source, des informations representatives du 
mouvement, dites images de mouvement, et des informations representatives de la 
texture, dites images de texture, et un codage par ondelettes, 
caract6ris6 en ce que, ledit codage par ondelettes 6tant appliqu6 sur des images de 
5 difference, dites r6sidus, obtenues par comparaison entre une image de source et 
une image estimee correspondante, il comprend : 

- des moyens de decodage du mouvement, en tenant compte d'au 
moins certains desdits rdsidus relatifs au mouvement, pour former 
des images de mouvement ; 

10 - des moyens de decodage de la texture, en tenant compte d'au 

moins certains desdits residus relatifs a la texture, pour former des 
images de texture ; 

- des moyens de synthase d'une sequence d'images ddcodees, 
correspondant k ladite sequence d'images source, par projection 

15 desdites images de texture sur lesdites images de mouvement. 
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